論文の概要: One-shot Visual Reasoning on RPMs with an Application to Video Frame
Prediction
- arxiv url: http://arxiv.org/abs/2111.12301v1
- Date: Wed, 24 Nov 2021 06:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:37:16.595044
- Title: One-shot Visual Reasoning on RPMs with an Application to Video Frame
Prediction
- Title(参考訳): RPM上のワンショットビジュアル推論とビデオフレーム予測への応用
- Authors: Wentao He, Jianfeng Ren, Ruibin Bai
- Abstract要約: Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。
本稿では,現実の視覚認識とそれに続く論理的推論タスクの課題に対処するために,ワンショットの人間理解可能なReaSoner(Os-HURS)を提案する。
- 参考スコア(独自算出の注目度): 1.0932251830449902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Raven's Progressive Matrices (RPMs) are frequently used in evaluating human's
visual reasoning ability. Researchers have made considerable effort in
developing a system which could automatically solve the RPM problem, often
through a black-box end-to-end Convolutional Neural Network (CNN) for both
visual recognition and logical reasoning tasks. Towards the objective of
developing a highly explainable solution, we propose a One-shot
Human-Understandable ReaSoner (Os-HURS), which is a two-step framework
including a perception module and a reasoning module, to tackle the challenges
of real-world visual recognition and subsequent logical reasoning tasks,
respectively. For the reasoning module, we propose a "2+1" formulation that can
be better understood by humans and significantly reduces the model complexity.
As a result, a precise reasoning rule can be deduced from one RPM sample only,
which is not feasible for existing solution methods. The proposed reasoning
module is also capable of yielding a set of reasoning rules, precisely modeling
the human knowledge in solving the RPM problem. To validate the proposed method
on real-world applications, an RPM-like One-shot Frame-prediction (ROF) dataset
is constructed, where visual reasoning is conducted on RPMs constructed using
real-world video frames instead of synthetic images. Experimental results on
various RPM-like datasets demonstrate that the proposed Os-HURS achieves a
significant and consistent performance gain compared with the state-of-the-art
models.
- Abstract(参考訳): Raven's Progressive Matrices (RPM) は人間の視覚的推論能力を評価するために頻繁に用いられる。
研究者は、視覚認識と論理的推論タスクの両方のために、しばしばブラックボックスのエンドツーエンド畳み込みニューラルネットワーク(cnn)を介して、rpm問題を自動で解決するシステムの開発に多大な努力を払った。
高度に説明可能な解法を開発するために,知覚モジュールと推論モジュールを含む2段階のフレームワークである1発の人間理解可能な推論器(os-hurs)を提案し,実世界の視覚認識とそれに続く論理推論タスクの課題に取り組む。
推論モジュールのために、人間により理解され、モデルの複雑さを大幅に低減できる「2+1」定式化を提案する。
その結果、1つのRPMサンプルのみから正確な推論規則を導出することができ、既存の解法では不可能である。
提案する推論モジュールは、rpm問題を解決する際に人間の知識を正確にモデル化する一連の推論ルールも得ることができる。
提案手法を実世界のアプリケーションに適用するために,合成画像の代わりに実世界のビデオフレームを用いて構築したRPM上で視覚的推論を行うROFデータセットを構築した。
種々のRPM様データセットの実験結果から,提案したOs-HURSは,最先端モデルと比較して有意かつ一貫した性能向上を達成した。
関連論文リスト
- DMWM: Dual-Mind World Model with Long-Term Imagination [53.98633183204453]
本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。
提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
論文 参考訳(メタデータ) (2025-02-11T14:40:57Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:53:50Z) - Learning to reason over visual objects [6.835410768769661]
対象物の観点から視覚シーンを処理するための汎用メカニズムが,抽象的な視覚的推論を促進するのにどの程度役立つかを検討する。
我々は、オブジェクト中心処理の帰納バイアスが抽象的な視覚的推論の鍵となることを発見した。
論文 参考訳(メタデータ) (2023-03-03T23:19:42Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - A Data Augmentation Method by Mixing Up Negative Candidate Answers for
Solving Raven's Progressive Matrices [0.829949723558878]
Raven's Progressive Matrices (RPM) は人間の視覚的推論能力をテストするために頻繁に使用される。
最近開発されたRPMライクなデータセットとソリューションモデルは、この種の問題を認知科学からコンピュータ科学に転送します。
本稿では,様々な多重選択問題に一般化可能な画像混合によるデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-03-09T04:50:32Z) - Multi-Label Contrastive Learning for Abstract Visual Reasoning [0.0]
Ravenのプログレッシブマトリクスを解く最先端のシステムは、大量のパターンベースのトレーニングとデータセットのバイアスを利用する。
人間は、解決すべきRPM(または一般的には視覚的推論タスク)の根底にあるルールや概念の識別に集中する。
本稿では,新しいトレーニングアルゴリズムに加えて,最先端性能に寄与する重要な要因であるRPMのスパースルール符号化方式を提案する。
論文 参考訳(メタデータ) (2020-12-03T14:18:15Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。