論文の概要: From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2511.23031v1
- Date: Fri, 28 Nov 2025 09:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.846997
- Title: From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning
- Title(参考訳): 幻覚から意図へ:視覚言語推論のための視覚リズム学習
- Authors: Changpeng Wang, Haozhe Wang, Xi Chen, Junhan Liu, Taofeng Xue, Chong Peng, Donglian Qi, Fangzhen Lin, Yunfeng Yan,
- Abstract要約: 本稿では,視覚的合理性自体のトレーニングを基盤とした,エンドツーエンドのパラダイムであるVisual Rationale Learning (ViRL)を提案する。
ViRLは,(1)プロセス・スーパービジョンと,(2)ステップレベルの報酬形成による客観的アライメント,(3)きめ細かなクレジット・アサインメントを統合して,正しく,冗長で,誤動作を区別する。
この研究は、透明で検証可能で信頼できる視覚言語モデルを構築するためのタスクに依存しないプロセス基底パラダイムとして、視覚的合理化を確立している。
- 参考スコア(独自算出の注目度): 19.84653798433995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language reasoning underscore the importance of thinking with images, where models actively ground their reasoning in visual evidence. Yet, prevailing frameworks treat visual actions as optional tools, boosting metrics but leaving reasoning ungrounded and crops ineffective. This gap gives rise to the illusion of thinking with images: models seem visually grounded but rely on context-agnostic actions that neither refine perception nor guide reasoning toward correct answers. We address this problem by reframing visual actions as core reasoning primitives rather than optional tools, which we term visual rationalization, the visual analogue of textual Chain-of-Thought. Building on this insight, we propose Visual Rationale Learning (ViRL), an end-to-end paradigm that grounds training in the visual rationale itself. ViRL integrates (1) Process Supervision with ground-truth rationales, (2) Objective Alignment via step-level reward shaping, and (3) Fine-Grained Credit Assignment to distinguish correct, redundant, and erroneous actions. By ensuring each action contributes meaningfully to the reasoning chain, ViRL enables models to "get the right answer for the right visual reason". Trained purely with end-to-end RL, ViRL achieves state-of-the-art results across benchmarks spanning perception, hallucination, and reasoning. This work establishes visual rationalization as a task-agnostic, process-grounded paradigm for building transparent, verifiable, and trustworthy vision-language models.
- Abstract(参考訳): 近年の視覚言語推論の進歩は、モデルが視覚的証拠の推論を積極的に根ざしたイメージで考えることの重要性を浮き彫りにしている。
しかし、一般的なフレームワークは、視覚的なアクションをオプションのツールとして扱い、メトリクスを増加させるが、推論は根拠がなく、作物は効果がない。
このギャップは、イメージによる思考の錯覚を引き起こす:モデルは視覚的に基礎づけられているように見えるが、文脈に依存しない行動に依存し、知覚を洗練させることも、正しい答えを導くこともできない。
視覚行動は, 視覚的合理化, テキスト・オブ・サードの視覚的類似を, 視覚的合理化(Visual rationalization)と呼ぶオプションツールではなく, 基本的推論プリミティブ(core reasoning primitives)として再定義することで, この問題に対処する。
この知見に基づいて,視覚的合理性自体のトレーニングを基盤とした,エンドツーエンドのパラダイムであるVisual Rationale Learning (ViRL)を提案する。
ViRLは,(1)プロセス・スーパービジョンと,(2)ステップレベルの報酬形成による客観的アライメント,(3)きめ細かなクレジット・アサインメントを統合して,正しく,冗長で,誤動作を区別する。
それぞれのアクションが推論連鎖に有意義に寄与することを保証することで、ViRLはモデルが「正しい視覚的理由に対する正しい答えを得る」ことを可能にする。
エンドツーエンドのRLで純粋にトレーニングされたViRLは、知覚、幻覚、推論にまたがるベンチマークで最先端の結果を得る。
この研究は、透明で検証可能で信頼できる視覚言語モデルを構築するためのタスクに依存しないプロセス基底パラダイムとして、視覚的合理化を確立している。
関連論文リスト
- Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - Grounded Reinforcement Learning for Visual Reasoning [51.94871616778874]
我々は、強化学習で訓練された視覚言語モデルViGoRL(Visually Grounded Reinforcement Learning)を紹介する。
人間の視覚的意思決定にインスパイアされたViGoRLは、空間的に根拠のある推論トレースを生成することを学ぶ。
この結果から,RLは汎用的な視覚的推論を用いたモデル入力の強力なパラダイムであることが示唆された。
論文 参考訳(メタデータ) (2025-05-29T17:20:26Z) - DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-20T13:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。