論文の概要: Stabilizing Unsupervised Self-Evolution of MLLMs via Continuous Softened Retracing reSampling
- arxiv url: http://arxiv.org/abs/2604.03647v2
- Date: Wed, 08 Apr 2026 02:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.001517
- Title: Stabilizing Unsupervised Self-Evolution of MLLMs via Continuous Softened Retracing reSampling
- Title(参考訳): ソフトトレーシング再サンプリングによるMLLMの教師なし自己進化の安定化
- Authors: Yunyao Yu, Zhengxian Wu, Zhuohong Chen, Hangrui Xu, Zirui Liao, Xiangwen Deng, Zhifang Liu, Senyuan Shi, Haoqian Wang,
- Abstract要約: MLLM自己進化におけるCSRS(Continuous Softened Retracing ReSampling)を提案する。
具体的には,ロングテール推論経路の探索を拡大するために,アンカーポイントからモデルの再推論を行うRetracing Re-inference Mechanism (RRM)を提案する。
CSRSは,MathVisionなどのベンチマークにおけるQwen2.5-VL-7Bの推論性能を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 19.22335478070254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the unsupervised self-evolution of Multimodal Large Language Models, the quality of feedback signals during post-training is pivotal for stable and effective learning. However, existing self-evolution methods predominantly rely on majority voting to select the most frequent output as the pseudo-golden answer, which may stem from the model's intrinsic biases rather than guaranteeing the objective correctness of the reasoning paths. To counteract the degradation, we propose Continuous Softened Retracing reSampling (CSRS) in MLLM self-evolution. Specifically, we introduce a Retracing Re-inference Mechanism (RRM) that the model re-inferences from anchor points to expand the exploration of long-tail reasoning paths. Simultaneously, we propose Softened Frequency Reward (SFR), which replaces binary rewards with continuous signals, calibrating reward based on the answers' frequency across sampled reasoning sets. Furthermore, incorporated with Visual Semantic Perturbation (VSP), CSRS ensures the model prioritizes mathematical logic over visual superficiality. Experimental results demonstrate that CSRS significantly enhances the reasoning performance of Qwen2.5-VL-7B on benchmarks such as MathVision. We achieve state-of-the-art (SOTA) results in unsupervised self-evolution on geometric tasks. Our code is avaible at https://github.com/yyy195/CSRS.
- Abstract(参考訳): マルチモーダル大規模言語モデルの教師なし自己進化において、学習後のフィードバック信号の質は安定的で効果的な学習に不可欠である。
しかし、既存の自己進化法は、主に多数決に頼り、疑似黄金の答えとして最も頻繁な出力を選択するが、これは推論パスの客観的な正しさを保証するのではなく、モデル固有のバイアスに由来する可能性がある。
劣化対策として,MLLM自己進化におけるCSRS(Continuous Softened Retracing ReSampling)を提案する。
具体的には,ロングテール推論経路の探索を拡大するために,アンカーポイントからモデルの再推論を行うRetracing Re-inference Mechanism (RRM)を提案する。
同時に,2次報酬を連続的な信号に置き換える軟化周波数リワード(SFR)を提案する。
さらに、視覚的セマンティック摂動(VSP)が組み込まれ、CSRSはモデルが視覚的超現実性よりも数学的論理を優先することを保証する。
実験の結果,CSRSはMathVisionなどのベンチマークにおいてQwen2.5-VL-7Bの推論性能を著しく向上することが示された。
我々は、幾何学的タスクにおける教師なし自己進化の結果、最先端(SOTA)を達成する。
私たちのコードはhttps://github.com/yy195/CSRSで利用可能です。
関連論文リスト
- Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - R^3: Replay, Reflection, and Ranking Rewards for LLM Reinforcement Learning [32.16683059021539]
大規模推論モデル(LRM)は、構造化推論によって多様で複雑な問題を解くことを目的としている。
グループベースの政策最適化手法の最近の進歩は、プロセスレベルのアノテーションに頼らず、安定した優位性推定を可能にすることを約束している。
本報告では,(1)群内優位性を維持するEmphcross-context underlinetextbfReplay戦略,(2)emphin-context self-underlinetextbfReflectionメカニズムの3つの方向に沿った強化学習機構を提案する。
論文 参考訳(メタデータ) (2026-01-27T13:55:34Z) - Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。
この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文 参考訳(メタデータ) (2025-12-23T08:56:49Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。