論文の概要: A Neurosymbolic Agent System for Compositional Visual Reasoning
- arxiv url: http://arxiv.org/abs/2506.07778v3
- Date: Sat, 04 Oct 2025 20:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.154657
- Title: A Neurosymbolic Agent System for Compositional Visual Reasoning
- Title(参考訳): 合成視覚推論のためのニューロシンボリックエージェントシステム
- Authors: Yichang Xu, Gaowen Liu, Ramana Rao Kompella, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Zachary Yahn, Ling Liu,
- Abstract要約: 既存の視覚言語モデル (VLM) は、構成的な視覚的推論によって依然として挑戦されている。
本稿では,効率的な構成的視覚推論のための視覚・言語エージェントシステムの開発に,ニューロシンボリックアプローチを提案する。
- 参考スコア(独自算出の注目度): 31.649454833851863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement in large language models (LLMs) and large vision models has fueled the rapid progress in multi-modal vision-language reasoning capabilities. However, existing vision-language models (VLMs) remain challenged by compositional visual reasoning. This paper presents VLAgent, a neuro-symbolic approach to developing a Vision-Language Agent system for efficient compositional visual reasoning with three novel features. First, VLAgent develops an interpretable visualization-enhanced two-stage neuro-symbolic reasoning system. The first stage is managed by a front-end engine that generates a structured visual reasoning plan (symbolic program script) for each compositional visual reasoning task by utilizing a pre-trained LLM powered with few-shot chain-of-thought in-context learning. The second stage is managed by a high-performance back-end engine. It transforms the planning script into executable code based on visual input (image or video) and the combination of neural models and symbolic functions and then performs a sequence of actions for the compositional visual reason task. Second, to ensure and enhance the quality of mapping the logic plan to a sequence of executable instructions, VLAgent introduces the SS-parser, which examines the syntax and semantic correctness of the planning script, detects and repairs the logic errors found in the LLM-generated logic plan before generating the executable program. Third, VLAgent introduces the execution verifier in critical reasoning steps to validate and refine its compositional reasoning results in a stepwise manner, for example, ensemble methods for critical visual reasoning and caption analysis for low-confidence compositional reasoning. Extensive experiments on six visual benchmarks compared to a dozen SoTA visual reasoning models show that VLAgent outperforms existing representative approaches to compositional visual reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模視覚モデルの進歩は、多モーダル視覚言語推論能力の急速な進歩を後押ししている。
しかし、既存の視覚言語モデル (VLM) は、構成的な視覚的推論によって依然として挑戦されている。
本稿では、3つの新しい特徴を持つ効率的な構成的視覚推論のための視覚言語エージェントシステムを開発するための神経象徴的アプローチであるVLAgentについて述べる。
まず、VLAgentは解釈可能な可視化強化2段階の神経-記号推論システムを開発する。
第1のステージは、数発のチェーン・オブ・コンテクスト学習を駆使した事前学習LLMを利用して、各構成的視覚的推論タスクに対して構造化された視覚的推論計画(記号的プログラムスクリプト)を生成するフロントエンドエンジンによって管理される。
第2ステージは高性能のバックエンドエンジンによって管理される。
計画スクリプトを視覚入力(画像またはビデオ)とニューラルモデルとシンボリック関数の組み合わせに基づいて実行可能なコードに変換し、合成視覚理由タスクのための一連のアクションを実行する。
第二に、論理計画が実行可能命令のシーケンスにマッピングされる品質を保証するため、VLAgentは、計画スクリプトの構文と意味的正しさを調べ、実行可能プログラムを生成する前にLLM生成された論理計画に見られる論理エラーを検出し、修復するSS-parserを導入した。
第3に、VLAgentは、実行検証を批判的推論ステップで導入し、その構成的推論結果を段階的に検証し、洗練する。
数十のSoTA視覚推論モデルと比較して、6つの視覚的ベンチマークに関する大規模な実験は、VLAgentが構成的視覚推論に対する既存の代表的アプローチより優れていることを示している。
関連論文リスト
- LLaPa: A Vision-Language Model Framework for Counterfactual-Aware Procedural Planning [26.098281158573748]
マルチモーダルな手続き計画のための視覚言語モデルフレームワークであるLLaPaを紹介する。
LLaPaはテキストタスク記述と視覚環境画像から実行可能なアクションシーケンスを生成する。
手続き計画を改善するために,LLaPaを2つの補助モジュールで拡張する。
論文 参考訳(メタデータ) (2025-07-11T11:18:49Z) - VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。
このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。
我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文 参考訳(メタデータ) (2025-07-07T15:31:36Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [21.61801132083334]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning [27.725814615823687]
本研究では,計画段階と実行段階の誤りを訂正する"plug-and-play"手法であるExoViPを提案する。
我々は、現在の視覚言語プログラミング手法を強化するために、検証モジュールを"exoskeletons"として採用する。
論文 参考訳(メタデータ) (2024-08-05T03:22:10Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - TIC: Translate-Infer-Compile for accurate "text to plan" using LLMs and Logical Representations [0.0]
本研究では,自然言語計画タスク要求の計画作成の問題について検討する。
本手法は,LLMを用いて自然言語タスク記述の解釈可能な中間表現を生成する。
中間表現のみを出力するためにLLMを用いると、LLMの誤差が大幅に減少する。
論文 参考訳(メタデータ) (2024-02-09T18:39:13Z) - Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents [39.53593677934238]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。
しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。
本稿では、自然言語の表現性と形式言語の精度を統合することで、LLMをベースとしたエージェントのための新しい「フォーマルLLM」フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-01T17:30:50Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。