論文の概要: R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2603.25720v1
- Date: Thu, 26 Mar 2026 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.418159
- Title: R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning
- Title(参考訳): R-C2: サイクル一貫性強化学習によるマルチモーダル推論の改善
- Authors: Zirui Zhang, Haoyu Dong, Kexin Pei, Chengzhi Mao,
- Abstract要約: クロスモーダルな不整合は、学習のための豊かで自然な信号を提供する。
我々は、クロスモーダルサイクルの一貫性を強制することによって内部衝突を解決する強化学習フレームワークRC2を紹介する。
我々の結果は、高度な推論は、データのスケーリングだけでなく、構造的に一貫した世界を理解することによっても現れることを示唆している。
- 参考スコア(独自算出の注目度): 20.899863841051662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robust perception and reasoning require consistency across sensory modalities. Yet current multimodal models often violate this principle, yielding contradictory predictions for visual and textual representations of the same concept. Rather than masking these failures with standard voting mechanisms, which can amplify systematic biases, we show that cross-modal inconsistency provides a rich and natural signal for learning. We introduce RC2, a reinforcement learning framework that resolves internal conflicts by enforcing cross-modal cycle consistency. By requiring a model to perform backward inference, switch modalities, and reliably reconstruct the answer through forward inference, we obtain a dense, label-free reward. This cyclic constraint encourages the model to align its internal representations autonomously. Optimizing for this structure mitigates modality-specific errors and improves reasoning accuracy by up to 7.6 points. Our results suggest that advanced reasoning emerges not only from scaling data, but also from enforcing a structurally consistent understanding of the world.
- Abstract(参考訳): 頑健な知覚と推論は感覚のモダリティをまたいだ一貫性を必要とする。
しかし、現在のマルチモーダルモデルは、しばしばこの原理に反し、同じ概念の視覚的およびテキスト的表現に対して矛盾した予測をもたらす。
組織的バイアスを増幅する標準的な投票機構でこれらの障害を隠蔽するのではなく、クロスモーダルな不整合が学習のためのリッチで自然な信号を提供することを示す。
我々は、クロスモーダルサイクルの一貫性を強制することによって内部衝突を解決する強化学習フレームワークRC2を紹介する。
モデルが後方推論を行い、モダリティを切り替え、前方推論によって確実に解を再構成することを要求することにより、高密度なラベルなし報酬が得られる。
この循環的制約は、モデルの内部表現を自律的に整列させることを促す。
この構造の最適化は、モダリティ固有のエラーを軽減し、推論精度を最大7.6ポイント向上させる。
以上の結果から,先進的推論はデータのスケーリングだけでなく,構造的に一貫した世界理解がもたらされることが示唆された。
関連論文リスト
- A Progressive Visual-Logic-Aligned Framework for Ride-Hailing Adjudication [19.51385161254594]
RideJudgeは、一般的な視覚的セマンティクスと厳密な顕在的プロトコルの間のギャップを埋めるプログレッシブなビジュアル論理指向フレームワークである。
我々のフレームワークは88.41%の精度を達成し、32Bスケールのベースラインを超え、解釈可能な適応のための新しい標準を確立する。
論文 参考訳(メタデータ) (2026-03-18T03:46:30Z) - Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。
R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。
R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-02T17:20:10Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。