論文の概要: CURE: Critical-Token-Guided Re-concatenation for Entropy-collapse Prevention
- arxiv url: http://arxiv.org/abs/2508.11016v1
- Date: Thu, 14 Aug 2025 18:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.643916
- Title: CURE: Critical-Token-Guided Re-concatenation for Entropy-collapse Prevention
- Title(参考訳): CURE:エントロピー崩壊防止のための臨界誘導型再結合
- Authors: Qingbin Li, Rongkun Xue, Jie Wang, Ming Zhou, Zhi Li, Xiaofeng Ji, Yongqi Wang, Miao Liu, Zheming Yang, Minghui Qiu, Jing Yang,
- Abstract要約: 本稿では,探索と利用のバランスをとる2段階フレームワークCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
CUREは6つのベンチマークで5%のパフォーマンス向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 28.735007701371906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Reinforcement Learning with Verified Reward (RLVR) have driven the emergence of more sophisticated cognitive behaviors in large language models (LLMs), thereby enhancing their reasoning capabilities. However, in prior RLVR pipelines, the repeated use of static initial-state sampling drawn exactly from the dataset distribution during each sampling phase produced overly deterministic, low diversity model behavior, which manifested as rapid entropy collapse and hindered sustained performance gains during prolonged training. To address this issue, we introduce CURE (Critical-token-gUided Re concatenation for Entropy-collapse prevention), a two-stage framework that balances exploration and exploitation. Specifically, in the first stage, to deliberately steer the model toward novel yet coherent contexts, we re-generate at high-entropy critical tokens and jointly optimize the original and the branched trajectories. The further comparison with vanilla DAPO shows that the regeneration process achieves a better performance on math reasoning tasks while sustaining a high-level entropy degree for exploration. In the second stage, we continue training with static initial-state sampling by DAPO, intentionally placing the model in a familiar state to gradually strengthen exploitation. Extensive experiments on Qwen-2.5-Math-7B show that, compared to other RLVR methods, CURE achieves a 5% performance gain across six math benchmarks, establishing state-of-the-art performance in both entropy and accuracy. A series of experiments further validate the effectiveness of our approach. Code is available at https://github.com/CURE-Project/CURE.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verified Reward)の最近の進歩は、大規模言語モデル(LLM)におけるより洗練された認知行動の出現を招き、その推論能力を高めている。
しかし、以前のRLVRパイプラインでは、サンプリングフェーズ毎にデータセット分布から正確に抽出された静的初期状態サンプリングの繰り返し使用が、急激なエントロピー崩壊と長期トレーニングにおける持続的なパフォーマンス向上を妨げた、過度に決定論的で低多様性なモデル行動を生み出した。
この問題に対処するために、探索と利用のバランスをとる2段階のフレームワークであるCURE(Critical-token-gUided Re Concatenation for Entropy-collapse Prevention)を紹介する。
特に第1段階では、新規で一貫性のあるコンテキストに向けてモデルを意図的に操縦するために、高エントロピー臨界トークンで再生成し、元の軌道と分岐軌跡を共同で最適化する。
バニラDAPOとのさらなる比較は、リジェネレーションプロセスは、探索のための高いエントロピーレベルを維持しながら、数学推論タスクにおいてより良いパフォーマンスを達成することを示している。
第2段階では,DAPOによる静的初期状態サンプリングのトレーニングを継続し,そのモデルに慣れ親しんだ状態に故意に配置し,徐々に搾取を強化する。
Qwen-2.5-Math-7Bの大規模な実験により、他のRLVR法と比較して、CUREは6つのベンチマークベンチマークで5%の性能向上を実現し、エントロピーと精度の両方で最先端のパフォーマンスを確立した。
一連の実験により、我々のアプローチの有効性がさらに検証された。
コードはhttps://github.com/CURE-Project/CUREで入手できる。
関連論文リスト
- LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Supervised Contrastive Learning based Dual-Mixer Model for Remaining
Useful Life Prediction [3.081898819471624]
Remaining Useful Life (RUL)予測は、現在の予測モーメントからデバイスの完全な障害までの残時間を正確に見積もることを目的としている。
従来のRUL予測手法における時間的特徴と空間的特徴の厳密結合の欠点を克服するため,Dual-Mixerモデルと呼ばれる空間的時間的特徴抽出器を提案する。
提案手法の有効性は,C-MAPSSデータセットに関する他の最新の研究結果との比較により検証した。
論文 参考訳(メタデータ) (2024-01-29T14:38:44Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Variational Auto-Regressive Gaussian Processes for Continual Learning [17.43751039943161]
連続学習におけるシーケンシャルなタスクを解くための原則的後続更新機構を開発する。
スケーラブルな後続に対するスパース誘導点近似を頼りに、新しい自己回帰変動分布を提案する。
平均的な予測エントロピー推定は、VAR-GPが破滅的な忘れを防いでいることを示している。
論文 参考訳(メタデータ) (2020-06-09T19:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。