論文の概要: Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios
- arxiv url: http://arxiv.org/abs/2411.13754v1
- Date: Wed, 20 Nov 2024 23:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:06.768327
- Title: Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios
- Title(参考訳): 複雑な視覚的推論シナリオに対する反復的・パラレリーの学習
- Authors: Shantanu Jaiswal, Debaditya Roy, Basura Fernando, Cheston Tan,
- Abstract要約: 複雑なVQAシナリオに対処するために,完全神経的反復並列機構(IPRM)を導入する。
IPRMの「イテレーティブ」は、個々の操作を動的に計算、保存、リコールするシナリオに対して、構成的なステップバイステップ推論を促進する。
その"並列(parallel)"は、異なる推論経路の同時探索を可能にし、相互に独立なオペレーションの実行をより堅牢で効率的なものにする。
- 参考スコア(独自算出の注目度): 21.824319551526294
- License:
- Abstract: Complex visual reasoning and question answering (VQA) is a challenging task that requires compositional multi-step processing and higher-level reasoning capabilities beyond the immediate recognition and localization of objects and events. Here, we introduce a fully neural Iterative and Parallel Reasoning Mechanism (IPRM) that combines two distinct forms of computation -- iterative and parallel -- to better address complex VQA scenarios. Specifically, IPRM's "iterative" computation facilitates compositional step-by-step reasoning for scenarios wherein individual operations need to be computed, stored, and recalled dynamically (e.g. when computing the query "determine the color of pen to the left of the child in red t-shirt sitting at the white table"). Meanwhile, its "parallel" computation allows for the simultaneous exploration of different reasoning paths and benefits more robust and efficient execution of operations that are mutually independent (e.g. when counting individual colors for the query: "determine the maximum occurring color amongst all t-shirts"). We design IPRM as a lightweight and fully-differentiable neural module that can be conveniently applied to both transformer and non-transformer vision-language backbones. It notably outperforms prior task-specific methods and transformer-based attention modules across various image and video VQA benchmarks testing distinct complex reasoning capabilities such as compositional spatiotemporal reasoning (AGQA), situational reasoning (STAR), multi-hop reasoning generalization (CLEVR-Humans) and causal event linking (CLEVRER-Humans). Further, IPRM's internal computations can be visualized across reasoning steps, aiding interpretability and diagnosis of its errors.
- Abstract(参考訳): 複雑な視覚的推論と質問応答(VQA)は、オブジェクトやイベントの即時認識や局所化を超えて、合成多段階処理と高レベルの推論能力を必要とする課題である。
ここでは、複雑なVQAシナリオに対処するために、2つの異なる計算形式、反復と並列の2つの形式を組み合わせた完全な神経的反復と並列推論メカニズム(IPRM)を紹介します。
具体的には、IPRMの「定型的」計算は、個々の操作を動的に計算、保存、リコールするシナリオ(例えば、クエリの計算時に「白いテーブルに座っている赤いTシャツで子供の左にペンの色を決定する」)に対して、構成的なステップバイステップの推論を容易にする。
一方、「並列」計算により、異なる推論経路の同時探索が可能となり、相互独立な操作の実行をより堅牢かつ効率的に行うことができる(例えば、クエリの個々の色をカウントする場合)。
我々はIPRMを軽量かつ完全微分可能なニューラルモジュールとして設計し、トランスフォーマーと非トランスフォーマーの視覚言語バックボーンの両方に便利に適用できる。
様々な画像やビデオのVQAベンチマークにおいて、コンポジション時空間推論(AGQA)、状況推論(STAR)、マルチホップ推論一般化(CLEVR-Humans)、因果イベントリンク(CLEVRER-Humans)といった複雑な推論機能をテストする。
さらに、IPRMの内部計算は推論ステップにまたがって可視化され、解釈可能性やエラーの診断に役立つ。
関連論文リスト
- Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Self-Attention Based Semantic Decomposition in Vector Symbolic Architectures [6.473177443214531]
本稿では,反復探索問題における自己アテンションに基づく更新規則に基づく共振器ネットワークの新たな変種を提案する。
認識に基づくパターン認識,シーン分解,オブジェクト推論など,多くのタスクに応用できる。
論文 参考訳(メタデータ) (2024-03-20T00:37:19Z) - DynaLay: An Introspective Approach to Dynamic Layer Selection for Deep
Networks [0.0]
textbfDynaLayは、各入力を処理するのに最適な層を適応的に選択するための意思決定エージェントを備えた代替アーキテクチャである。
DynaLayは推論中により複雑な入力を再評価し、パフォーマンスと効率の両方を最適化するために計算作業を調整する。
実験により,DynaLayは従来のディープモデルに匹敵する精度を達成し,計算要求を大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-20T05:55:05Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - HPE:Answering Complex Questions over Text by Hybrid Question Parsing and
Execution [92.69684305578957]
テキストQAにおける質問解析と実行の枠組みを提案する。
提案したフレームワークは、トップダウンの質問パースとして、ボトムアップの回答バックトラックとみなすことができる。
MuSiQue,2WikiQA,HotpotQA,およびNQに関する実験により,提案した解析およびハイブリッド実行フレームワークが,教師付き,少数ショット,ゼロショット設定における既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-12T22:37:06Z) - Learning to reason over visual objects [6.835410768769661]
対象物の観点から視覚シーンを処理するための汎用メカニズムが,抽象的な視覚的推論を促進するのにどの程度役立つかを検討する。
我々は、オブジェクト中心処理の帰納バイアスが抽象的な視覚的推論の鍵となることを発見した。
論文 参考訳(メタデータ) (2023-03-03T23:19:42Z) - Logical Message Passing Networks with One-hop Inference on Atomic
Formulas [57.47174363091452]
本稿では,ニューラルネットワーク演算子から知識グラフの埋め込みを分解する,複雑な問合せ応答のためのフレームワークを提案する。
クエリグラフの上に、局所的な原子式上のワンホップ推論とグローバル論理的推論を結びつける論理メッセージパッシングニューラルネットワーク(LMPNN)を提案する。
我々のアプローチは、最先端のニューラルCQAモデルをもたらす。
論文 参考訳(メタデータ) (2023-01-21T02:34:06Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - Relational Neural Machines [19.569025323453257]
本稿では,学習者のパラメータと一階論理に基づく推論を共同で学習するフレームワークを提案する。
ニューラルネットワークは、純粋な準記号学習の場合の古典的な学習結果とマルコフ論理ネットワークの両方を復元することができる。
適切なアルゴリズム解は、大規模な問題において学習と推論が引き出すことができるように考案されている。
論文 参考訳(メタデータ) (2020-02-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。