論文の概要: VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding
- arxiv url: http://arxiv.org/abs/2509.24776v1
- Date: Mon, 29 Sep 2025 13:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.009968
- Title: VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding
- Title(参考訳): VTPerception-R1: 視覚的およびテキスト的知覚的接地によるマルチモーダル推論の強化
- Authors: Yizhuo Ding, Mingkang Chen, Zhibang Feng, Tong Xiao, Wanying Qu, Wenqi Shao, Yanwei Fu,
- Abstract要約: MLLM(Multimodal large language model)は、しばしば知覚的証拠の根拠となる推論に苦しむ。
本稿では,4つのマルチモーダル・ベンチマークと2つのMLLMの知覚戦略,暗黙的,視覚的,テキスト的,系統的な研究を行う。
本稿では,認識を推論から切り離す2段階統合フレームワークであるVTPerception-R1を提案する。
- 参考スコア(独自算出の注目度): 53.00016784065408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) often struggle to ground reasoning in perceptual evidence. We present a systematic study of perception strategies-explicit, implicit, visual, and textual-across four multimodal benchmarks and two MLLMs. Our findings show that explicit perception, especially when paired with textual cues, consistently yields the best improvements, particularly for smaller models. Based on this insight, we propose VTPerception-R1, a unified two-stage framework that decouples perception from reasoning. Stage 1 introduces perception-augmented fine-tuning, and Stage 2 applies perception-aware reinforcement learning with novel visual, textual, and consistency rewards. Experiments demonstrate that VTPerception-R1 significantly improves reasoning accuracy and robustness across diverse tasks, offering a scalable and auditable solution for perception-grounded multimodal reasoning. Our code is available at: https://github.com/yizhuoDi/VTPerceprion-R1.
- Abstract(参考訳): MLLM(Multimodal large language model)は、しばしば知覚的証拠の根拠となる推論に苦しむ。
本稿では,4つのマルチモーダル・ベンチマークと2つのMLLMの知覚戦略,暗黙的,視覚的,テキスト的,系統的な研究を行う。
以上の結果から,特にテキストの手がかりと組み合わせた場合,特に小型モデルにおいて,明瞭な知覚が常に最高の改善をもたらすことが示唆された。
そこで本研究では,VTPerception-R1を提案する。
ステージ1は知覚に富んだ微調整を導入し、ステージ2は視覚的、テキスト的、一貫性のある新しい報酬で知覚に敏感な強化学習を適用している。
実験により、VTPerception-R1は様々なタスクにおける推論精度と堅牢性を著しく改善し、知覚に基づくマルチモーダル推論のためのスケーラブルで監査可能なソリューションを提供することが示された。
私たちのコードは、https://github.com/yizhuoDi/VTPerceprion-R1.comで利用可能です。
関連論文リスト
- VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception [50.446538409259524]
VTTS(Visual Test-Time Scaling)は、推論中の反復推論を通じてMLLMの推論を強化する新しい手法である。
VTTSは、高信頼の階層的時間領域に注目することで人間の注意を模倣し、更新されたテキスト予測によってガイドされる。
新たに導入した Videochat-R1.5 モデルは,平均 5% 以上の向上を実現しています。
論文 参考訳(メタデータ) (2025-09-25T12:46:46Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.923665989164387]
MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。
実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。
本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。