論文の概要: Beyond Mode Collapse: Distribution Matching for Diverse Reasoning
- arxiv url: http://arxiv.org/abs/2605.19461v1
- Date: Tue, 19 May 2026 07:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.181504
- Title: Beyond Mode Collapse: Distribution Matching for Diverse Reasoning
- Title(参考訳): モード崩壊を超えて: ディバース推論のための分布マッチング
- Authors: Xiaozhe Li, Yang Li, Xinyu Fang, Shengyuan Ding, Peiji Li, Yongkang Chen, Yichuan Ma, Tianyi Lyu, Linyang Li, Dahua Lin, Qipeng Guo, Qingwen Liu, Kai Chen,
- Abstract要約: GRPOのようなオンライン強化学習手法はモード崩壊に悩まされる。
このことは、逆KL最小化のモード探索行動に由来することを示す。
KL最小化の原理的近似によりモード崩壊を防止するDMPOを提案する。
- 参考スコア(独自算出の注目度): 69.88237286885065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy reinforcement learning methods like GRPO suffer from mode collapse: they exhibit reduced solution diversity, concentrating probability mass on a single solution once discovered and ceasing exploration of alternative strategies. We show this stems from reverse KL minimization's mode-seeking behavior, which reinforces the first high-reward trajectory found rather than maintaining a distribution over multiple diverse solutions. We propose DMPO (Distribution-Matching Policy Optimization), which prevents mode collapse through principled approximation of forward KL minimization. DMPO constructs a group level target distribution over sampled trajectories proportional to their rewards, then aligns the policy distribution to this target. This provides mode-covering behavior without requiring sampling from the intractable global target distribution, enabling sustained exploration throughout training. We validate DMPO on NP-hard combinatorial optimization, where exponentially many feasible solutions exist but only a few approach optimality, an ideal testbed for evaluating exploration. DMPO achieves 43.9% Quality Ratio on text-based NP-Bench (vs. GRPO's 40.1%) and 43.1% on vision-based NP-Bench (vs. 38.4%), demonstrating 9% and 12% relative improvements respectively. These gains generalize to mathematical reasoning (+2.0%) and out-of-domain tasks (+2.3%), showing that diversity-preserving training enhances general reasoning capabilities across modalities. Our work establishes distribution matching as a practical, principled approach to preventing mode collapse in on-policy RL, with consistent quality improvements demonstrating sustained exploration across diverse reasoning tasks.
- Abstract(参考訳): GRPOのようなオンライン強化学習手法は、解の多様性を低下させ、かつて発見された単一の解に確率質量を集中させ、代替戦略の探索を緩和する、モード崩壊に苦しむ。
逆KL最小化のモード探索挙動は、複数の多様な解の分布を維持するのではなく、最初の高逆軌道を補強する。
DMPO (Distribution-Matching Policy Optimization) を提案する。
DMPOは、その報酬に比例したサンプリングされた軌道上のグループレベルの目標分布を構築し、その後、ポリシー分布をこの目標に整列させる。
これにより、難易度の高いグローバルターゲット分布からのサンプリングを必要とせずに、モードカバレッジの動作が提供され、トレーニング全体を通して持続的な探索が可能になる。
NP-hard組合せ最適化においてDMPOを検証し、指数関数的に多くの実現可能な解が存在するが、探索を評価するための理想的なテストベッドである、いくつかのアプローチ最適性しか持たない。
DMPOはテキストベースのNP-Bench(vs. GRPOの40.1%)で43.9%、視覚ベースのNP-Bench(vs. 38.4%)で43.1%を獲得し、それぞれ9%と12%の相対的な改善を示している。
これらの利得は、数学的推論(+2.0%)や領域外タスク(+2.3%)に一般化され、多様性を保ったトレーニングは、モダリティを越えて一般的な推論能力を高める。
本研究は, オンラインRLにおけるモード崩壊防止のための実践的, 原則的アプローチとして, 分散マッチングを確立した。
関連論文リスト
- DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models [55.01951088768769]
DiffusionOPDはオンライン政策蒸留(OPD)に基づく拡散モデルのための新しいマルチタスクトレーニングパラダイムである
本研究では,DiffusionOPDがトレーニング効率と最終性能において,マルチリワードRLとカスケードRLのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-14T16:49:09Z) - Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity [23.454044066183027]
Reinforcement Learning with Verifiable Rewards (RLVR) は、推論タスクにおいて、単一意図の精度(Pass@1)で大幅に向上した。
一般的なRLVRの目的は、どのように確率質量が正しい解間で分配されるかに無関係である。
我々は,GRPOの修正である統一正則政策最適化(UCPO)を提案し,適切な解に対する政策分布に条件付きペナルティを加える。
論文 参考訳(メタデータ) (2026-05-01T03:02:44Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - Distribution-Centric Policy Optimization Dominates Exploration-Exploitation Trade-off [34.80019950191864]
我々は、強化学習のためのtextbfdistribution中心の視点を導入する。
本稿では,分布レベルの正規化としてエントロピー規制を再構成する分散中心政策最適化(DCPO)を提案する。
全体として、DCPOはサンプルレベルの原則を分散レベルの原則に置き換え、理論的に基礎とフレキシブルなフレームワークを提供し、EEのトレードオフを強化します。
論文 参考訳(メタデータ) (2026-01-19T05:20:46Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Centralized Adaptive Sampling for Reliable Co-Training of Independent Multi-Agent Policies [3.5253513747455303]
独立政策勾配アルゴリズムは、協調型・非競合型ゲームにおけるマルチエージェント強化学習(MARL)に広く用いられている。
これらは、各エージェントのポリシー勾配が準最適均衡に向かっているときに、亜最適収束することが知られている。
共同サンプリング誤差を低減するための適応的な動作サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-01T20:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。