論文の概要: A Vision-Language Agent System for Compositional Reasoning with VLM-assisted Script and Executable Generation
- arxiv url: http://arxiv.org/abs/2506.07778v2
- Date: Tue, 02 Sep 2025 03:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.429539
- Title: A Vision-Language Agent System for Compositional Reasoning with VLM-assisted Script and Executable Generation
- Title(参考訳): VLM支援スクリプトと実行可能生成による合成推論のための視覚言語エージェントシステム
- Authors: Yichang Xu, Gaowen Liu, Ramana Rao Kompella, Sihao Hu, Tiansheng Huang, Fatih Ilhan, Selim Furkan Tekin, Zachary Yahn, Ling Liu,
- Abstract要約: 本稿では,視覚テキスト合成推論のための視覚言語エージェントVLAgentを提案する。
第一に、VLAgentは事前訓練されたLLMを利用して、数ショットの文脈学習を行い、各構成推論タスクの計画スクリプトを生成する。
第2に、VLAgent は LLM 生成した計画スクリプトに埋め込まれたロジックエラーを特定し修正する SS-parser を導入した。
第3に、VLAgentは合成推論出力検証器を導入し、複雑な合成推論ステップの出力を検証する。
- 参考スコア(独自算出の注目度): 35.34074811680048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement in large language models (LLMs) and large vision models has fueled the rapid progress in multi-modal vision-text reasoning capabilities. However, existing vision-language models (VLMs) to date offer poor performance for compositional reasoning. This paper presents VLAgent, a vision-language agent system for vision-text compositional reasoning with three novel features. First, VLAgent leverages a pre-trained LLM with few-shot context learning to generate the planning script for each compositional reasoning task and provides a backend engine to generate and perform executable runtime, which maps the planning script into executable code using the VLAgent library for VLAgent executor. Second, VLAgent introduces the SS-parser, which identifies and corrects logic errors embedded in the LLM-generated planning script, to further enhance the quality of script-executable mapping. Third, VLAgent introduces the compositional reasoning output verifier, which validates and refines the output of complex compositional reasoning steps, by leveraging complementary reasoning techniques, e.g., ensemble learning and caption analysis. Extensive experiments are conducted on six visual benchmarks and compared to a dozen of the SoTA visual reasoning models. The results show that VLAgent outperforms existing representative approaches for compositional text-visual reasoning. Our code and datasets with outputs will be made available upon acceptance.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模視覚モデルの進歩は、多モード視覚テキスト推論能力の急速な進歩を後押ししている。
しかし、既存の視覚言語モデル(VLM)は、構成的推論では性能が劣っている。
本稿では3つの特徴を持つ視覚テキスト合成推論のための視覚言語エージェント VLAgent を提案する。
まず、VLAgentは事前学習されたLLMを活用して、構成推論タスク毎に計画スクリプトを生成するとともに、実行実行時の生成と実行を行うバックエンドエンジンを提供し、VLAgentエグゼキュータ用のVLAgentライブラリを使用して、計画スクリプトを実行可能なコードにマッピングする。
第2に、VLAgent は LLM 生成した計画スクリプトに埋め込まれたロジックエラーを特定し修正する SS-parser を導入し、スクリプト実行可能なマッピングの品質をさらに向上させた。
第3に、VLAgentは合成推論出力検証器を導入し、補完的推論技術、例えば、アンサンブル学習、キャプション解析を利用して複雑な構成推論ステップの出力を検証・洗練する。
大規模な実験は6つの視覚的ベンチマークで行われ、多くのSoTA視覚的推論モデルと比較される。
以上の結果から,VLAgentは合成文・視覚的推論において,既存の代表的手法よりも優れていた。
私たちのコードとアウトプット付きデータセットは、受け入れ次第利用可能になります。
関連論文リスト
- LLaPa: A Vision-Language Model Framework for Counterfactual-Aware Procedural Planning [26.098281158573748]
マルチモーダルな手続き計画のための視覚言語モデルフレームワークであるLLaPaを紹介する。
LLaPaはテキストタスク記述と視覚環境画像から実行可能なアクションシーケンスを生成する。
手続き計画を改善するために,LLaPaを2つの補助モジュールで拡張する。
論文 参考訳(メタデータ) (2025-07-11T11:18:49Z) - VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。
このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。
我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文 参考訳(メタデータ) (2025-07-07T15:31:36Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning [27.725814615823687]
本研究では,計画段階と実行段階の誤りを訂正する"plug-and-play"手法であるExoViPを提案する。
我々は、現在の視覚言語プログラミング手法を強化するために、検証モジュールを"exoskeletons"として採用する。
論文 参考訳(メタデータ) (2024-08-05T03:22:10Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - TIC: Translate-Infer-Compile for accurate "text to plan" using LLMs and Logical Representations [0.0]
本研究では,自然言語計画タスク要求の計画作成の問題について検討する。
本手法は,LLMを用いて自然言語タスク記述の解釈可能な中間表現を生成する。
中間表現のみを出力するためにLLMを用いると、LLMの誤差が大幅に減少する。
論文 参考訳(メタデータ) (2024-02-09T18:39:13Z) - Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [39.53593677934238]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。
しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。
本稿では、自然言語の表現性と形式言語の精度を統合することで、LLMをベースとしたエージェントのための新しい「フォーマルLLM」フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-01T17:30:50Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。