論文の概要: Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains
- arxiv url: http://arxiv.org/abs/2512.22545v1
- Date: Sat, 27 Dec 2025 10:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.107774
- Title: Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains
- Title(参考訳): 様々な視覚領域にまたがる自己逆多重モーダルコヒーレント推論
- Authors: Jesen Zhang, Ningyuan Liu, Kaitong Cai, Sidi Liu, Jing Yang, Ziliang Chen, Xiaofei Sun, Keze Wang,
- Abstract要約: マルチモーダルLSMは、流動的で信頼性の低い推論を生成する。
SR-MCRは軽量でラベルのないフレームワークであり、推論を整合させる。
SR-MCRは、幅広いビジュアルベンチマークで解答精度と推論コヒーレンスを改善する。
- 参考スコア(独自算出の注目度): 16.357026482329232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal LLMs often produce fluent yet unreliable reasoning, exhibiting weak step-to-step coherence and insufficient visual grounding, largely because existing alignment approaches supervise only the final answer while ignoring the reliability of the intermediate reasoning process. We introduce SR-MCR, a lightweight and label-free framework that aligns reasoning by exploiting intrinsic process signals derived directly from model outputs. Five self-referential cues -- semantic alignment, lexical fidelity, non-redundancy, visual grounding, and step consistency -- are integrated into a normalized, reliability-weighted reward that provides fine-grained process-level guidance. A critic-free GRPO objective, enhanced with a confidence-aware cooling mechanism, further stabilizes training and suppresses trivial or overly confident generations. Built on Qwen2.5-VL, SR-MCR improves both answer accuracy and reasoning coherence across a broad set of visual benchmarks; among open-source models of comparable size, SR-MCR-7B achieves state-of-the-art performance with an average accuracy of 81.4%. Ablation studies confirm the independent contributions of each reward term and the cooling module.
- Abstract(参考訳): 既存のアライメントアプローチは、中間的推論プロセスの信頼性を無視しながら最終回答のみを監督するためである。
SR-MCRは、モデル出力から直接派生した本質的なプロセス信号を利用して推論を調整する軽量でラベルなしのフレームワークである。
セマンティックアライメント、語彙的忠実性、非冗長性、視覚的接地、ステップ整合性の5つの自己参照キューは、プロセスレベルの詳細なガイダンスを提供する、標準化された信頼性の高い報酬に統合される。
信頼性を意識した冷却機構で強化された批判のないGRPO目標をさらに安定させ、自明または過度に自信を持った世代を抑制する。
Qwen2.5-VL上に構築されたSR-MCRは、幅広いビジュアルベンチマークにおいて、応答精度と推論コヒーレンスの両方を改善している。
アブレーション研究は、各報酬項と冷却モジュールの独立な寄与を確認している。
関連論文リスト
- SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文 参考訳(メタデータ) (2025-11-13T18:47:07Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models [0.026861992804651083]
本稿では拡散生成集合から最も信頼できるSRサンプルを特定するための堅牢なフレームワークを提案する。
本稿では,意味的類似性に基づいてSR信頼性を定量化するハイブリッド尺度TWSを提案する。
アウトプットを人間の期待と意味的正しさに合わせることで、この研究は生成的SRにおける信頼性の新たなベンチマークを定めている。
論文 参考訳(メタデータ) (2025-06-25T21:00:44Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。