論文の概要: Don't Show Pixels, Show Cues: Unlocking Visual Tool Reasoning in Language Models via Perception Programs
- arxiv url: http://arxiv.org/abs/2604.12896v1
- Date: Tue, 14 Apr 2026 15:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.542251
- Title: Don't Show Pixels, Show Cues: Unlocking Visual Tool Reasoning in Language Models via Perception Programs
- Title(参考訳): ピクセルを見せないで、キューを見せろ:知覚プログラムを介して言語モデルでビジュアルツールの推論をアンロックする
- Authors: Muhammad Kamran Janjua, Hugo Silva, Di Niu, Bahador Rashidi,
- Abstract要約: 知覚プログラム (P$2$) は、ツール出力をコンパクトで構造化された言語固有の要約に書き換える、トレーニング不要で、モデルに依存しない手法である。
P$2$は、ベースモデルと生ツール拡張ベースラインを大きく改善することを示す。
- 参考スコア(独自算出の注目度): 14.963001448437838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models (MLLMs) are increasingly paired with vision tools (e.g., depth, flow, correspondence) to enhance visual reasoning. However, despite access to these tool-generated visual cues, MLLMs often fail to benefit from them. Existing approaches typically feed raw tool outputs into the model, but these dense, pixel-level representations are misaligned with the language-native reasoning strengths of LLMs, leading to weak perception and reliance on language priors. We argue that, in problems where vision tools can provide the necessary visual cues, the bottleneck is not more tool calls or larger MLLMs, it is how tool outputs are represented. We introduce Perception Programs (P$^2$), a training-free, model-agnostic method that rewrites tool outputs into compact, structured, language-native summaries that MLLMs can directly parse and reason over. Across six perception-centric tasks in BLINK, P$^2$ consistently yields large improvements over base models and raw tool-augmented baselines. With GPT-5 Mini as the base model, P$^2$ raises its accuracy from 41.35\% to 86.47\% on multi-view reasoning, from 52.42\% to 81.45\% on relative depth, and achieves a 22\% average gain across tasks, setting new state-of-the-art results. Even on smaller MLLMs, e.g., InternVL3.5-4B and Qwen3VL-4B, we observe 15-40\% absolute gains from P$^2$, surpassing prior agentic, supervised, and RL-based tool-use methods-without any training or model modifications.
- Abstract(参考訳): マルチモーダル言語モデル(MLLM)は、視覚推論を強化するために視覚ツール(例えば、深さ、流れ、対応)とペアになってきています。
しかし、これらのツールが生成した視覚的手がかりにアクセスするにもかかわらず、MLLMはそれらの利点を享受できないことが多い。
既存のアプローチは、通常、生のツール出力をモデルに供給するが、これらの密度の高いピクセルレベルの表現は、LLMの言語固有の推論の強みと不一致であり、言語先行に弱い認識と依存をもたらす。
視覚ツールが必要な視覚的手がかりを提供する問題において、ボトルネックは単なるツールコールやより大きなMLLMではなく、ツールアウトプットの表現方法である、と我々は主張する。
P$^2$は、MLLMが直接解析して推論できるコンパクトで構造化された言語固有の要約にツール出力を書き換える、トレーニング不要でモデルに依存しない手法である。
BLINKの6つの知覚中心タスクのうち、P$^2$は、ベースモデルと生ツール拡張ベースラインを大きく改善する。
GPT-5 Miniをベースモデルとして、P$^2$はその精度を41.35\%から86.47\%に引き上げ、相対的な深さで52.42\%から81.45\%に引き上げ、タスク全体の平均利得を22\%にし、新しい最先端の結果を設定した。
より小さなMLLM,例えば InternVL3.5-4B や Qwen3VL-4B では, P$^2$ から 15-40 % の絶対ゲインを観測した。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models [18.072434766310458]
ツール拡張言語モデル(TaLM)は、パラメトリック能力を超えた問題を解決するために外部ツールを呼び出すことができる。
ツールが正しく選択され、実行されたとしても、TaLMは推論の代用としてツール出力を扱います。
論文 参考訳(メタデータ) (2025-11-14T02:21:34Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios [49.33633818046644]
本稿では,大規模言語モデルのツール学習能力を評価するためのシステムであるToolEyesを提案する。
このシステムは7つの現実シナリオを慎重に分析し、ツール学習においてLLMに不可欠な5次元を解析する。
ToolEyesには,約600のツールを備えたツールライブラリが組み込まれている。
論文 参考訳(メタデータ) (2024-01-01T12:49:36Z) - GPT4Tools: Teaching Large Language Model to Use Tools via
Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。
先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文 参考訳(メタデータ) (2023-05-30T05:27:21Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - TALM: Tool Augmented Language Models [28.483609366116525]
トランスフォーマーベース言語モデル(LM)は、様々なタスクにまたがるスケールによるパフォーマンス向上を示す。
本稿では,ツール拡張言語モデル(Tool Augmented Language Models,TALM)を提案する。
TALMは知識量の多いQAタスクと単純なツールによる推論指向の数学タスクの両方に強い性能を示す。
論文 参考訳(メタデータ) (2022-05-24T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。