Fugu-MT 論文翻訳(概要): HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning

論文の概要: HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning

arxiv url: http://arxiv.org/abs/2403.12884v1
Date: Tue, 19 Mar 2024 16:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 13:24:34.145100
Title: HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
Title（参考訳）: HYDRA:動的合成視覚推論のためのハイパーエージェント
Authors: Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi,
Abstract要約: HYDRAは、信頼性と漸進的な一般的な推論のための構成的視覚的推論フレームワークである。本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。
参考スコア（独自算出の注目度）: 10.80288566599934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in visual reasoning (VR), particularly with the aid of Large Vision-Language Models (VLMs), show promise but require access to large-scale datasets and face challenges such as high computational costs and limited generalization capabilities. Compositional visual reasoning approaches have emerged as effective strategies; however, they heavily rely on the commonsense knowledge encoded in Large Language Models (LLMs) to perform planning, reasoning, or both, without considering the effect of their decisions on the visual reasoning process, which can lead to errors or failed procedures. To address these challenges, we introduce HYDRA, a multi-stage dynamic compositional visual reasoning framework designed for reliable and incrementally progressive general reasoning. HYDRA integrates three essential modules: a planner, a Reinforcement Learning (RL) agent serving as a cognitive controller, and a reasoner. The planner and reasoner modules utilize an LLM to generate instruction samples and executable code from the selected instruction, respectively, while the RL agent dynamically interacts with these modules, making high-level decisions on selection of the best instruction sample given information from the historical state stored through a feedback loop. This adaptable design enables HYDRA to adjust its actions based on previous feedback received during the reasoning process, leading to more reliable reasoning outputs and ultimately enhancing its overall effectiveness. Our framework demonstrates state-of-the-art performance in various VR tasks on four different widely-used datasets.
Abstract（参考訳）: 視覚的推論(VR)の最近の進歩、特に大型視覚言語モデル(VLM)の助けを借りて、将来性を示すが、大規模データセットへのアクセスが必要であり、高い計算コストや限られた一般化能力といった課題に直面している。構成的視覚推論アプローチは効果的な戦略として現れてきたが、計画、推論、あるいはその両方を実行するためにLLM(Large Language Models)で符号化されたコモンセンス知識に大きく依存している。これらの課題に対処するために、我々は、信頼性と漸進的な一般的な推論のために設計された多段階動的合成視覚推論フレームワークHYDRAを紹介する。 HYDRAは、プランナー、認知コントローラとして機能する強化学習(RL)エージェント、および推論の3つの必須モジュールを統合している。プランナーおよび推論モジュールは、LSMを使用して、選択した命令からそれぞれ命令サンプルと実行可能なコードを生成する一方、RLエージェントは、これらのモジュールと動的に相互作用し、フィードバックループを介して記憶された履歴状態から与えられた最高の命令サンプルの選択を高レベルに決定する。この適応可能な設計により、HYDRAは推論プロセス中に受け取った前のフィードバックに基づいて動作を調整することができ、より信頼性の高い推論出力が得られ、最終的には全体的な効果が向上する。本フレームワークは,4つの多種多様なデータセット上でのVRタスクにおける最先端性能を実証する。

関連論文リスト

VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。 VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2025-08-06T03:07:05Z)
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文参考訳（メタデータ） (2025-06-05T02:28:07Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning [45.39372905700317]
視覚的に豊かな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを紹介する。このフレームワークにより、VLMは検索エンジンと相互作用し、シングルターンまたはマルチターン推論軌道を自律的にサンプリングする。我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
論文参考訳（メタデータ） (2025-05-28T06:30:51Z)
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文参考訳（メタデータ） (2025-05-19T06:00:14Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。 VLMベースの知覚とLLMベースの推論を統合する。その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文参考訳（メタデータ） (2025-03-19T11:05:42Z)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。 LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:55Z)
Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文参考訳（メタデータ） (2024-05-30T06:31:03Z)
Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。 OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。 OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文参考訳（メタデータ） (2024-05-27T22:52:23Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。 AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2023-06-13T20:50:22Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)
JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents [14.70666899147632]
本稿では,モジュール型,一般化型,解釈可能な対話型エンボディエージェントのためのニューロシンボリック・コモンセンス推論フレームワークを提案する。我々のフレームワークは、ダイアログヒストリー(EDH)、TfD、Two-Agent Task Completion(TATC)を含む3つのダイアログベースの実施タスクに対して、最先端(SOTA)結果を達成する。私たちのモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
論文参考訳（メタデータ） (2022-08-28T18:30:46Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。