論文の概要: VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding
- arxiv url: http://arxiv.org/abs/2509.24776v1
- Date: Mon, 29 Sep 2025 13:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.009968
- Title: VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding
- Title(参考訳): VTPerception-R1: 視覚的およびテキスト的知覚的接地によるマルチモーダル推論の強化
- Authors: Yizhuo Ding, Mingkang Chen, Zhibang Feng, Tong Xiao, Wanying Qu, Wenqi Shao, Yanwei Fu,
- Abstract要約: MLLM(Multimodal large language model)は、しばしば知覚的証拠の根拠となる推論に苦しむ。
本稿では,4つのマルチモーダル・ベンチマークと2つのMLLMの知覚戦略,暗黙的,視覚的,テキスト的,系統的な研究を行う。
本稿では,認識を推論から切り離す2段階統合フレームワークであるVTPerception-R1を提案する。
- 参考スコア(独自算出の注目度): 53.00016784065408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) often struggle to ground reasoning in perceptual evidence. We present a systematic study of perception strategies-explicit, implicit, visual, and textual-across four multimodal benchmarks and two MLLMs. Our findings show that explicit perception, especially when paired with textual cues, consistently yields the best improvements, particularly for smaller models. Based on this insight, we propose VTPerception-R1, a unified two-stage framework that decouples perception from reasoning. Stage 1 introduces perception-augmented fine-tuning, and Stage 2 applies perception-aware reinforcement learning with novel visual, textual, and consistency rewards. Experiments demonstrate that VTPerception-R1 significantly improves reasoning accuracy and robustness across diverse tasks, offering a scalable and auditable solution for perception-grounded multimodal reasoning. Our code is available at: https://github.com/yizhuoDi/VTPerceprion-R1.
- Abstract(参考訳): MLLM(Multimodal large language model)は、しばしば知覚的証拠の根拠となる推論に苦しむ。
本稿では,4つのマルチモーダル・ベンチマークと2つのMLLMの知覚戦略,暗黙的,視覚的,テキスト的,系統的な研究を行う。
以上の結果から,特にテキストの手がかりと組み合わせた場合,特に小型モデルにおいて,明瞭な知覚が常に最高の改善をもたらすことが示唆された。
そこで本研究では,VTPerception-R1を提案する。
ステージ1は知覚に富んだ微調整を導入し、ステージ2は視覚的、テキスト的、一貫性のある新しい報酬で知覚に敏感な強化学習を適用している。
実験により、VTPerception-R1は様々なタスクにおける推論精度と堅牢性を著しく改善し、知覚に基づくマルチモーダル推論のためのスケーラブルで監査可能なソリューションを提供することが示された。
私たちのコードは、https://github.com/yizhuoDi/VTPerceprion-R1.comで利用可能です。
関連論文リスト
- VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception [50.446538409259524]
VTTS(Visual Test-Time Scaling)は、推論中の反復推論を通じてMLLMの推論を強化する新しい手法である。
VTTSは、高信頼の階層的時間領域に注目することで人間の注意を模倣し、更新されたテキスト予測によってガイドされる。
新たに導入した Videochat-R1.5 モデルは,平均 5% 以上の向上を実現しています。
論文 参考訳(メタデータ) (2025-09-25T12:46:46Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking [35.14983424309319]
GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。
GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。
トレーニングを支援するため,GThinker-11Kの構築を行った。
論文 参考訳(メタデータ) (2025-06-01T16:28:26Z) - Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning [54.56271651170667]
既存の方法は、しばしば固いテンプレートに過度に適合し、偽りのコンテンツに対する深い推論を欠いている。
FakeVVは10万以上のビデオテキスト対と微粒で解釈可能なアノテーションからなる大規模ベンチマークである。
また、深い推論と協調ルールに基づく強化学習を統合するフレームワークであるFact-R1を提案する。
論文 参考訳(メタデータ) (2025-05-22T16:05:06Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.923665989164387]
MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。
実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。
本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。