論文の概要: iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.05877v2
- Date: Fri, 16 Jan 2026 09:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.016121
- Title: iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models
- Title(参考訳): iReasoner: 自己進化型大規模マルチモーダルモデルのための軌道対応固有推論スーパービジョン
- Authors: Meghana Sunil, Manikandarajan Venmathimaran, Muthu Subash Kavitha,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、ラベルのないデータから自己再生とフィードバックによって自己改善することができる。
iReasonerは,LMMの暗黙的推論を改善するための自己進化型フレームワークである。
Qwen2.5-VL-7Bを皮切りに、iReasonerは教師なしのポストトレーニングの下で様々なマルチモーダル推論ベンチマークで最大$2.1$ポイントを得る。
- 参考スコア(独自算出の注目度): 2.9828440853209677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work shows that large multimodal models (LMMs) can self-improve from unlabeled data via self-play and intrinsic feedback. Yet existing self-evolving frameworks mainly reward final outcomes, leaving intermediate reasoning weakly constrained despite its importance for visually grounded decision making. We propose iReasoner, a self-evolving framework that improves an LMM's implicit reasoning by explicitly eliciting chain-of-thought (CoT) and rewarding its internal agreement. In a Proposer--Solver loop over unlabeled images, iReasoner augments outcome-level intrinsic rewards with a trajectory-aware signal defined over intermediate reasoning steps, providing learning signals that distinguish reasoning paths leading to the same answer without ground-truth labels or external judges. Starting from Qwen2.5-VL-7B, iReasoner yields up to $+2.1$ points across diverse multimodal reasoning benchmarks under fully unsupervised post-training. We hope this work serves as a starting point for reasoning-aware self-improvement in LMMs in purely unsupervised settings.
- Abstract(参考訳): 最近の研究は、大規模マルチモーダルモデル(LMM)が、自己再生と本質的なフィードバックを通じてラベルのないデータから自己改善できることを示している。
しかし、既存の自己進化フレームワークは主に最終結果に報いるものであり、中間的推論は、視覚的に根ざした意思決定の重要性にもかかわらず、弱く制約されたままである。
iReasoner は LMM の暗黙的推論を改善するための自己進化型フレームワークであり, チェーン・オブ・シント (CoT) を明示的に抽出し, 内部合意に報いる。
ラベルなし画像上のProposer-Solverループでは、iReasonerは、中間推論ステップ上で定義された軌跡認識信号で結果レベルの本質的な報酬を増大させ、基調ラベルや外部判断なしで同じ回答に至る推論経路を識別する学習信号を提供する。
Qwen2.5-VL-7Bを皮切りに、iReasonerは教師なしのポストトレーニングの下で様々なマルチモーダル推論ベンチマークで最大$2.1$ポイントを得る。
この作業が、純粋に教師なしの環境でLMMにおける推論を意識した自己改善の出発点になることを願っています。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains [16.357026482329232]
マルチモーダルLSMは、流動的で信頼性の低い推論を生成する。
SR-MCRは軽量でラベルのないフレームワークであり、推論を整合させる。
SR-MCRは、幅広いビジュアルベンチマークで解答精度と推論コヒーレンスを改善する。
論文 参考訳(メタデータ) (2025-12-27T10:14:14Z) - ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better [59.29940512530982]
推論プロセスに視覚的ヒントを動的に統合するフレームワークChainVを提案する。
提案手法は,特に算数集約ベンチマークにおいて,推論精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-21T10:11:17Z) - EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards [52.42920996842378]
本稿では,1つのバックボーンモデルから2つの協調エージェントをインスタンス化する自己進化型フレームワークEvoLMMを提案する。
この動的なフィードバックは、情報的クエリの生成と構造化推論の洗練の両方を促進する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
論文 参考訳(メタデータ) (2025-11-20T18:59:54Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - MMLU-Reason: Benchmarking Multi-Task Multi-modal Language Understanding and Reasoning [40.55833679660528]
我々は,マルチモーダル推論を明示的思考で厳格に評価する新しいベンチマークMMLU-Reasonを紹介する。
MMLU-Reasonは1)記号深度とマルチホップ要求の6つの異なる推論タイプにまたがる1,083の質問の高拡散データセットからなる。
全体として、MMLU-Reasonは、次世代のマルチモーダル推論システムを評価し、比較し、改善するためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-05-22T09:41:55Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。