論文の概要: Self-Prophetic Decoding to Unlock Visual Search in LVLMs
- arxiv url: http://arxiv.org/abs/2605.28741v1
- Date: Wed, 27 May 2026 17:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.236178
- Title: Self-Prophetic Decoding to Unlock Visual Search in LVLMs
- Title(参考訳): LVLMにおける視覚探索をアンロックする自己予言デコーディング
- Authors: Zhendong He, Qiyuan Dai, Guanbin Li, Liang Lin, Sibei Yang,
- Abstract要約: LVLM(Large Vision-Language Models)は、真のマルチモーダル推論に向けて急速に進化している。
LVLMビジュアルサーチは、訓練後の本質的能力の非互換性と、長い多段階推論コンテキストにおける干渉の2つの主要な課題に直面している。
固有単一ステップ機能を活用してコヒーレントな多ステップ推論を可能にする自己プロヒーレントデコーディングフレームワークであるSeProDを紹介する。
- 参考スコア(独自算出の注目度): 108.77389957341586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) are rapidly evolving toward true multimodal reasoning, with visual search representing a concrete instantiation of the thinking-with-images paradigm. However, LVLM visual search faces two key challenges: incompatibility among intrinsic capabilities after post-training, and interference in long multi-step reasoning contexts. To address these, we identify two novel insights. First, self-regulation between pre- and post-training LVLMs leverages the intrinsic single-step capabilities of the pre-training model to mitigate capability deterioration and long-context interference. Second, probability-based prophetic sampling, replacing naive prompting, provides a probabilistic interface where the pre-training model acts as a prophet and the post-training model selectively accepts prophetic tokens under its output distribution, preserving coherent multi-step reasoning. Building on these insights, we introduce SeProD, a self-prophetic decoding framework that leverages intrinsic single-step capabilities to enable coherent multi-step reasoning in a training-free, plug-and-play manner. Experiments show that SeProD consistently improves multiple visual-search LVLMs across all 12 splits of 4 visual search benchmarks, as well as across general VQA benchmarks, without added computational overhead, thanks to its parallel prophetic acceptance mechanism.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、思考とイメージのパラダイムの具体的なインスタンス化を表すビジュアルサーチによって、真のマルチモーダル推論へと急速に進化している。
しかし、LVLMビジュアルサーチは、訓練後の本質的能力の相容性、長期の多段階推論における干渉の2つの主要な課題に直面している。
これらに対処するために、我々は2つの新しい洞察を見いだした。
第一に、事前学習と後学習の自己規制は、事前学習モデルの本質的な単一ステップ能力を活用して、能力劣化と長期間の干渉を軽減する。
第二に、確率に基づく預言サンプリング(英語版)は、ナイーブプロンプトの代わりに、事前学習モデルが預言者として振る舞う確率的インタフェースを提供し、後学習モデルは、その出力分布の下で預言トークンを選択的に受け入れ、コヒーレントな多段階推論を保存する。
これらの知見に基づき、本研究では、本質的な単一ステップ機能を活用して、トレーニング不要なプラグイン・アンド・プレイ方式でコヒーレントなマルチステップ推論を可能にする、自己証明型デコーディングフレームワークであるSeProDを紹介する。
実験の結果、SeProDは4つのビジュアルサーチベンチマークの12の分割、および一般的なVQAベンチマークのすべてに対して、並列な予言的受け入れ機構によって計算オーバーヘッドを増すことなく、複数のビジュアルサーチLVLMを一貫して改善していることがわかった。
関連論文リスト
- InterSketch: An Interleaved Reasoning Model with Self-correcting Visual Sketch and Stepwise Reward [24.461407883853344]
ヒューマンライクな思考は、典型的には、インターリーブド・ビジュアル・テクスト・チェーン・オブ・ソート(VT-CoT)による長い水平推論を伴う
自己補正とステップワイズ報酬機構によってVT-CoT能力を向上するインターリーブ推論モデルであるInterSketchを導入する。
ビジュアル推論ベンチマークの実験は、InterSketchの有効性を示し、Gemini-3-Proのようなプロプライエタリなモデルよりも優れている。
論文 参考訳(メタデータ) (2026-05-26T04:07:49Z) - Learn to Think: Improving Multimodal Reasoning through Vision-Aware Self-Improvement Training [82.17582358979884]
多モーダル大規模言語モデル(MLLM)の推論能力を改善するために、明示的推論トレースを用いた後学習が一般的である。
MLLMのマルチモーダル推論を強化するための視覚対応型自己改善学習フレームワークであるVISTAを提案する。
論文 参考訳(メタデータ) (2026-05-12T10:44:35Z) - Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning [12.51459553492698]
自己検証と自己修正(Self-Verification and Self-Rectification、SVSR)は、モデルの推論パイプラインに自己検証と自己修正を統合する統合フレームワークである。
SVSRは複雑な視覚的理解とマルチモーダル推論タスクの堅牢性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-11T14:25:17Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。