論文の概要: AnE: Pushing the Reasoning Frontier of Multimodal LLMs via Anchor Evolution
- arxiv url: http://arxiv.org/abs/2605.25571v1
- Date: Mon, 25 May 2026 08:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.47143
- Title: AnE: Pushing the Reasoning Frontier of Multimodal LLMs via Anchor Evolution
- Title(参考訳): AnE: アンカー進化によるマルチモーダルLDMの推論フロンティアの推進
- Authors: Zehao Wang, Yihan Zeng, Zidong Gong, Yuanfan Guo, Feng Zhu, Hongzhi Zhang, Wei Zhang, Wangmeng Zuo,
- Abstract要約: Supervised Fine-Tuning (SFT) とReinforcement Learning (RL) による後学習は多モーダル大規模言語モデル(MLLM)における推論の強化に不可欠である
既存のパラダイムは、静的データの制限により、しばしばパフォーマンスのボトルネックに達する。
我々は,真理に順応したデータキュレーションとモデル進化を統合する新しいパラダイムであるアンカー進化(AnE)を提案する。
- 参考スコア(独自算出の注目度): 61.593935260052795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training via Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) is crucial for enhancing reasoning in Multimodal Large Language Models (MLLMs), yet existing paradigms often reach a performance bottleneck due to the limitations of static data. While current methods leverage self-reflection or self-evolution to push these boundaries, they still suffer from cognitive drift and hallucinated reasoning paths caused by low-quality synthetic data. To address these challenges, we propose Anchor Evolution (AnE), a new paradigm that integrates truth-anchored data curation and model evolution, achieving faithful and steady performance gains at the reasoning frontier. Specifically, we propose Truth Anchor Expansion, which pinpoints the model failing frontier via trajectory rollouts and leverages ground-truth databases to retrieve high-fidelity anchors for faithful data curation. Subsequently, we introduce the Scaffold-Stripping Mechanism to internalize reasoning capabilities. This mechanism first anchors reasoning paths via scaffold-augmented supervision to mitigate the learning complexity and distribution drift of direct SFT on raw data, then leverages RL to strip the scaffold template, thereby effectively transitioning the reasoning paths into intrinsic model capabilities. Experimental results on multimodal reasoning benchmarks show that our method substantially advances the model performance frontier, improving the base model by 10.3\% across eight multimodal benchmarks and achieving state-of-the-art results. The code will be made publicly available.
- Abstract(参考訳): Supervised Fine-Tuning (SFT)とReinforcement Learning (RL)によるポストトレーニングは、MLLM(Multimodal Large Language Models)における推論の強化に不可欠である。
現在の方法は、これらの境界を押し上げるために自己回帰や自己進化を利用するが、低品質の合成データによって引き起こされる認知的ドリフトと幻覚的な推論パスに苦しむ。
これらの課題に対処するために、真理に順応したデータキュレーションとモデル進化を統合し、推論フロンティアで忠実で安定したパフォーマンス向上を達成する新しいパラダイムであるアンカー進化(AnE)を提案する。
具体的には,トラジェクティブ・ロールアウトによりモデルがフェールフロンティアをピンポイントし,地平データベースを利用して忠実なデータキュレーションのために高忠実なアンカーを検索するTrath Anchor Expansionを提案する。
次に,推論機能の内部化のためのScaffold-Stripping機構を提案する。
このメカニズムは、まず足場拡張監視による推論パスをアンカーし、生データ上で直接SFTの学習複雑性と分布ドリフトを緩和し、RLを利用して足場テンプレートを除去し、推論パスを本質的なモデル機能に効果的に移行する。
マルチモーダル推論ベンチマークの実験結果から,本手法はモデル性能フロンティアを大幅に向上し,8つのマルチモーダルベンチマークでベースモデルを10.3\%改善し,最先端の結果を得た。
コードは公開されます。
関連論文リスト
- Reinforcing Structured Chain-of-Thought for Video Understanding [49.3086326382764]
概要駆動強化学習(SDRL)を紹介する。
SDRLは、Supervised Fine-Tuning (SFT)の必要性を回避したシングルステージのRLフレームワークである。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-26T22:11:14Z) - Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe [69.90298686714036]
細調整と強化学習にまたがるマルチモーダル推論のための完全透明な2段階レシピであるOpenMMReasonerを紹介する。
提案手法は,9つのマルチモーダル推論ベンチマークにおいて,Qwen2.5-VL-7B-インストラクタベースラインよりも11.6%向上した。
論文 参考訳(メタデータ) (2025-11-20T13:11:45Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。