論文の概要: Language-Vision Planner and Executor for Text-to-Visual Reasoning
- arxiv url: http://arxiv.org/abs/2506.07778v1
- Date: Mon, 09 Jun 2025 13:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.98572
- Title: Language-Vision Planner and Executor for Text-to-Visual Reasoning
- Title(参考訳): テキスト・ツー・ビジュアル推論のための言語ビジョンプランナと実行子
- Authors: Yichang Xu, Gaowen Liu, Ramana Rao Kompella, Sihao Hu, Tiansheng Huang, Fatih Ilhan, Selim Furkan Tekin, Zachary Yahn, Ling Liu,
- Abstract要約: 本稿では,容易に理解可能なスクリプトで段階的に視覚的推論計画を作成し,各ステップをリアルタイムで実行することができるAIシステムを提案する。
本稿では,視覚的推論のための大規模言語モデル (LLM) の開発に触発されて,容易に理解可能なスクリプトで段階的に視覚的推論計画を作成し,計画の各ステップをリアルタイムで実行可能なAIシステム VLAgent を提案する。
- 参考スコア(独自算出の注目度): 9.140712714337273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement in large language models (LLMs) and large vision models has fueled the rapid progress in multi-modal visual-text reasoning capabilities. However, existing vision-language models (VLMs) to date suffer from generalization performance. Inspired by recent development in LLMs for visual reasoning, this paper presents VLAgent, an AI system that can create a step-by-step visual reasoning plan with an easy-to-understand script and execute each step of the plan in real time by integrating planning script with execution verifications via an automated process supported by VLAgent. In the task planning phase, VLAgent fine-tunes an LLM through in-context learning to generate a step-by-step planner for each user-submitted text-visual reasoning task. During the plan execution phase, VLAgent progressively refines the composition of neuro-symbolic executable modules to generate high-confidence reasoning results. VLAgent has three unique design characteristics: First, we improve the quality of plan generation through in-context learning, improving logic reasoning by reducing erroneous logic steps, incorrect programs, and LLM hallucinations. Second, we design a syntax-semantics parser to identify and correct additional logic errors of the LLM-generated planning script prior to launching the plan executor. Finally, we employ the ensemble method to improve the generalization performance of our step-executor. Extensive experiments with four visual reasoning benchmarks (GQA, MME, NLVR2, VQAv2) show that VLAgent achieves significant performance enhancement for multimodal text-visual reasoning applications, compared to the exiting representative VLMs and LLM based visual composition approaches like ViperGPT and VisProg, thanks to the novel optimization modules of VLAgent back-engine (SS-Parser, Plan Repairer, Output Verifiers). Code and data will be made available upon paper acceptance.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模視覚モデルの進歩は、多モーダルな視覚テキスト推論能力の急速な進歩を後押ししている。
しかしながら、既存の視覚言語モデル(VLM)は一般化性能に悩まされている。
本稿では,視覚的推論のためのLLMの開発に触発されたAIシステムであるVLAgentを提案する。VLAgentは,VLAgentが支援する自動プロセスを通じて,計画スクリプトと実行検証を統合することで,容易に理解可能なスクリプトで段階的に視覚的推論計画を作成し,計画の各ステップをリアルタイムで実行することができる。
タスク計画段階では、VLAgentはテキスト内学習を通じてLCMを微調整し、ユーザから送信されたテキスト視覚推論タスク毎にステップバイステップのプランナーを生成する。
計画実行フェーズにおいて、VLAgentは、神経象徴的実行モジュールの組成を徐々に洗練し、高信頼な推論結果を生成する。
VLAgentには3つのユニークな設計特徴がある: まず、コンテキスト内学習によるプラン生成の品質向上、誤った論理ステップの削減による論理推論の改善、誤ったプログラム、LLM幻覚。
第2に,計画実行子を起動する前に LLM 生成した計画スクリプトの論理的誤りを識別し,修正するための構文解析パーサを設計する。
最後に,ステップ実行器の一般化性能を向上させるためにアンサンブル法を用いる。
4つのビジュアル推論ベンチマーク(GQA, MME, NLVR2, VQAv2)による大規模な実験により、VLAgentはVLAgentのバックエンジン(SS-Parser, Plan repairer, Output Verifiers)の新たな最適化モジュールのおかげで、VLMやLLMベースのビジュアルコンポジションアプローチと比較して、マルチモーダルテキスト視覚推論アプリケーションにおいて大幅なパフォーマンス向上を実現している。
コードとデータは、論文の受理時に利用可能になる。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning [27.725814615823687]
本研究では,計画段階と実行段階の誤りを訂正する"plug-and-play"手法であるExoViPを提案する。
我々は、現在の視覚言語プログラミング手法を強化するために、検証モジュールを"exoskeletons"として採用する。
論文 参考訳(メタデータ) (2024-08-05T03:22:10Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - TIC: Translate-Infer-Compile for accurate "text to plan" using LLMs and Logical Representations [0.0]
本研究では,自然言語計画タスク要求の計画作成の問題について検討する。
本手法は,LLMを用いて自然言語タスク記述の解釈可能な中間表現を生成する。
中間表現のみを出力するためにLLMを用いると、LLMの誤差が大幅に減少する。
論文 参考訳(メタデータ) (2024-02-09T18:39:13Z) - Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [39.53593677934238]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。
しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。
本稿では、自然言語の表現性と形式言語の精度を統合することで、LLMをベースとしたエージェントのための新しい「フォーマルLLM」フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-01T17:30:50Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。