論文の概要: Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2602.16702v1
- Date: Wed, 18 Feb 2026 18:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.691749
- Title: Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning
- Title(参考訳): 衛生に配慮したマルチルート思考:ビジョンランゲージ推論を再考する
- Authors: Mingjia Shi, Yinhan He, Yaochen Zhu, Jundong Li,
- Abstract要約: 視覚言語モデル(VLM)は、視覚とテキストのモダリティを共同で活用することを目的としている。
主な障害は、視覚的な入力は通常、生成開始時に1回だけ提供されることである。
EmphSaliency-Aware Principle (SAP) の選択を提案する。
- 参考スコア(独自算出の注目度): 50.62037276161025
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) aim to reason by jointly leveraging visual and textual modalities. While allocating additional inference-time computation has proven effective for large language models (LLMs), achieving similar scaling in VLMs remains challenging. A key obstacle is that visual inputs are typically provided only once at the start of generation, while textual reasoning (e.g., early visual summaries) is generated autoregressively, causing reasoning to become increasingly text-dominated and allowing early visual grounding errors to accumulate. Moreover, vanilla guidance for visual grounding during inference is often coarse and noisy, making it difficult to steer reasoning over long texts. To address these challenges, we propose \emph{Saliency-Aware Principle} (SAP) selection. SAP operates on high-level reasoning principles rather than token-level trajectories, which enable stable control over discrete generation under noisy feedback while allowing later reasoning steps to re-consult visual evidence when renewed grounding is required. In addition, SAP supports multi-route inference, enabling parallel exploration of diverse reasoning behaviors. SAP is model-agnostic and data-free, requiring no additional training. Empirical results show that SAP achieves competitive performance, especially in reducing object hallucination, under comparable token-generation budgets while yielding more stable reasoning and lower response latency than CoT-style long sequential reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚とテキストのモダリティを共同で活用することを目的としている。
大規模言語モデル (LLM) では, さらなる推論時間計算が有効であることが証明されているが, VLM における同様のスケーリングを実現することは依然として困難である。
重要な障害は、視覚的な入力は通常、生成開始時に1回しか提供されないが、テキストによる推論(例えば、初期の視覚的要約)は自動回帰的に生成され、推論がテキストに支配されるようになり、早期の視覚的接地エラーが蓄積される。
さらに、推論中の視覚的接地のためのバニラガイダンスは、しばしば粗悪でうるさいので、長いテキストに対する推論を判断することは困難である。
これらの課題に対処するため,我々は,SAP (emph{Saliency-Aware Principle}) の選択を提案する。
SAPはトークンレベルの軌道ではなく、高レベルの推論原理を運用しており、ノイズの多いフィードバックの下で離散生成を安定的に制御し、後続の推論ステップでは、新たな根拠が必要になったときに視覚的証拠を再解釈することができる。
さらに、SAPはマルチルート推論をサポートし、多様な推論動作の並列探索を可能にする。
SAPはモデルに依存しず、データフリーであり、追加のトレーニングは不要である。
実証実験の結果、SAPは、特にトークン生成予算に比較して、オブジェクト幻覚を減少させる一方で、CoTスタイルのロングシーケンシャル推論よりも安定な推論と応答遅延を低下させる。
関連論文リスト
- Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Test-time Prompt Intervention [22.35022545068874]
テストタイム・プロンプト・インターベンションのための新しいフレームワークであるPIを提案する。
PIは推論中の推論パスを動的にガイドし、規制するインターフェースを提供する。
これにより、人間の問題解決の専門知識と認知科学の原則がLLMの推論プロセスにシームレスに統合される。
論文 参考訳(メタデータ) (2025-08-04T15:17:13Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。
既存のベンチマークには、しばしば推論の質問が混在している。
VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文 参考訳(メタデータ) (2025-06-01T07:17:46Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。