論文の概要: HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
- arxiv url: http://arxiv.org/abs/2403.12884v1
- Date: Tue, 19 Mar 2024 16:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:24:34.145100
- Title: HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
- Title(参考訳): HYDRA:動的合成視覚推論のためのハイパーエージェント
- Authors: Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi,
- Abstract要約: HYDRAは、信頼性と漸進的な一般的な推論のための構成的視覚的推論フレームワークである。
本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。
- 参考スコア(独自算出の注目度): 10.80288566599934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visual reasoning (VR), particularly with the aid of Large Vision-Language Models (VLMs), show promise but require access to large-scale datasets and face challenges such as high computational costs and limited generalization capabilities. Compositional visual reasoning approaches have emerged as effective strategies; however, they heavily rely on the commonsense knowledge encoded in Large Language Models (LLMs) to perform planning, reasoning, or both, without considering the effect of their decisions on the visual reasoning process, which can lead to errors or failed procedures. To address these challenges, we introduce HYDRA, a multi-stage dynamic compositional visual reasoning framework designed for reliable and incrementally progressive general reasoning. HYDRA integrates three essential modules: a planner, a Reinforcement Learning (RL) agent serving as a cognitive controller, and a reasoner. The planner and reasoner modules utilize an LLM to generate instruction samples and executable code from the selected instruction, respectively, while the RL agent dynamically interacts with these modules, making high-level decisions on selection of the best instruction sample given information from the historical state stored through a feedback loop. This adaptable design enables HYDRA to adjust its actions based on previous feedback received during the reasoning process, leading to more reliable reasoning outputs and ultimately enhancing its overall effectiveness. Our framework demonstrates state-of-the-art performance in various VR tasks on four different widely-used datasets.
- Abstract(参考訳): 視覚的推論(VR)の最近の進歩、特に大型視覚言語モデル(VLM)の助けを借りて、将来性を示すが、大規模データセットへのアクセスが必要であり、高い計算コストや限られた一般化能力といった課題に直面している。
構成的視覚推論アプローチは効果的な戦略として現れてきたが、計画、推論、あるいはその両方を実行するためにLLM(Large Language Models)で符号化されたコモンセンス知識に大きく依存している。
これらの課題に対処するために、我々は、信頼性と漸進的な一般的な推論のために設計された多段階動的合成視覚推論フレームワークHYDRAを紹介する。
HYDRAは、プランナー、認知コントローラとして機能する強化学習(RL)エージェント、および推論の3つの必須モジュールを統合している。
プランナーおよび推論モジュールは、LSMを使用して、選択した命令からそれぞれ命令サンプルと実行可能なコードを生成する一方、RLエージェントは、これらのモジュールと動的に相互作用し、フィードバックループを介して記憶された履歴状態から与えられた最高の命令サンプルの選択を高レベルに決定する。
この適応可能な設計により、HYDRAは推論プロセス中に受け取った前のフィードバックに基づいて動作を調整することができ、より信頼性の高い推論出力が得られ、最終的には全体的な効果が向上する。
本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。
関連論文リスト
- Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning [11.526471286502993]
ビデオベースヒューマンオブジェクトインタラクション(V-HOI)検出は,セマンティックシーン理解において重要な課題である。
以前のV-HOI検出モデルは、特定のデータセットの正確な検出に大きく進歩した。
本稿では、現在のV-HOI検出モデルの性能向上を図るために、V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR)を提案する。
論文 参考訳(メタデータ) (2024-03-15T08:51:15Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for
Conversational Embodied Agents [14.70666899147632]
本稿では,モジュール型,一般化型,解釈可能な対話型エンボディエージェントのためのニューロシンボリック・コモンセンス推論フレームワークを提案する。
我々のフレームワークは、ダイアログヒストリー(EDH)、TfD、Two-Agent Task Completion(TATC)を含む3つのダイアログベースの実施タスクに対して、最先端(SOTA)結果を達成する。
私たちのモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
論文 参考訳(メタデータ) (2022-08-28T18:30:46Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。