論文の概要: HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
- arxiv url: http://arxiv.org/abs/2403.12884v1
- Date: Tue, 19 Mar 2024 16:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:24:34.145100
- Title: HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
- Title(参考訳): HYDRA:動的合成視覚推論のためのハイパーエージェント
- Authors: Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi,
- Abstract要約: HYDRAは、信頼性と漸進的な一般的な推論のための構成的視覚的推論フレームワークである。
本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。
- 参考スコア(独自算出の注目度): 10.80288566599934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visual reasoning (VR), particularly with the aid of Large Vision-Language Models (VLMs), show promise but require access to large-scale datasets and face challenges such as high computational costs and limited generalization capabilities. Compositional visual reasoning approaches have emerged as effective strategies; however, they heavily rely on the commonsense knowledge encoded in Large Language Models (LLMs) to perform planning, reasoning, or both, without considering the effect of their decisions on the visual reasoning process, which can lead to errors or failed procedures. To address these challenges, we introduce HYDRA, a multi-stage dynamic compositional visual reasoning framework designed for reliable and incrementally progressive general reasoning. HYDRA integrates three essential modules: a planner, a Reinforcement Learning (RL) agent serving as a cognitive controller, and a reasoner. The planner and reasoner modules utilize an LLM to generate instruction samples and executable code from the selected instruction, respectively, while the RL agent dynamically interacts with these modules, making high-level decisions on selection of the best instruction sample given information from the historical state stored through a feedback loop. This adaptable design enables HYDRA to adjust its actions based on previous feedback received during the reasoning process, leading to more reliable reasoning outputs and ultimately enhancing its overall effectiveness. Our framework demonstrates state-of-the-art performance in various VR tasks on four different widely-used datasets.
- Abstract(参考訳): 視覚的推論(VR)の最近の進歩、特に大型視覚言語モデル(VLM)の助けを借りて、将来性を示すが、大規模データセットへのアクセスが必要であり、高い計算コストや限られた一般化能力といった課題に直面している。
構成的視覚推論アプローチは効果的な戦略として現れてきたが、計画、推論、あるいはその両方を実行するためにLLM(Large Language Models)で符号化されたコモンセンス知識に大きく依存している。
これらの課題に対処するために、我々は、信頼性と漸進的な一般的な推論のために設計された多段階動的合成視覚推論フレームワークHYDRAを紹介する。
HYDRAは、プランナー、認知コントローラとして機能する強化学習(RL)エージェント、および推論の3つの必須モジュールを統合している。
プランナーおよび推論モジュールは、LSMを使用して、選択した命令からそれぞれ命令サンプルと実行可能なコードを生成する一方、RLエージェントは、これらのモジュールと動的に相互作用し、フィードバックループを介して記憶された履歴状態から与えられた最高の命令サンプルの選択を高レベルに決定する。
この適応可能な設計により、HYDRAは推論プロセス中に受け取った前のフィードバックに基づいて動作を調整することができ、より信頼性の高い推論出力が得られ、最終的には全体的な効果が向上する。
本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。
関連論文リスト
- Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for
Conversational Embodied Agents [14.70666899147632]
本稿では,モジュール型,一般化型,解釈可能な対話型エンボディエージェントのためのニューロシンボリック・コモンセンス推論フレームワークを提案する。
我々のフレームワークは、ダイアログヒストリー(EDH)、TfD、Two-Agent Task Completion(TATC)を含む3つのダイアログベースの実施タスクに対して、最先端(SOTA)結果を達成する。
私たちのモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
論文 参考訳(メタデータ) (2022-08-28T18:30:46Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。