論文の概要: Dissecting Long Reasoning Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2506.04913v1
- Date: Thu, 05 Jun 2025 11:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.683026
- Title: Dissecting Long Reasoning Models: An Empirical Study
- Title(参考訳): 離散長共振モデル:実証的研究
- Authors: Yongyu Mu, Jiali Zeng, Bei Li, Xinyan Guan, Fandong Meng, Jie Zhou, Tong Xiao, Jingbo Zhu,
- Abstract要約: 強化学習(RL)における正・負のサンプルの役割を系統的に分析する。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
- 参考スコア(独自算出の注目度): 94.31064312707211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in training long-context reasoning models via reinforcement learning (RL), several open questions and counterintuitive behaviors remain. This work focuses on three key aspects: (1) We systematically analyze the roles of positive and negative samples in RL, revealing that positive samples mainly facilitate data fitting, whereas negative samples significantly enhance generalization and robustness. Interestingly, training solely on negative samples can rival standard RL training performance. (2) We identify substantial data inefficiency in group relative policy optimization, where over half of the samples yield zero advantage. To address this, we explore two straightforward strategies, including relative length rewards and offline sample injection, to better leverage these data and enhance reasoning efficiency and capability. (3) We investigate unstable performance across various reasoning models and benchmarks, attributing instability to uncertain problems with ambiguous outcomes, and demonstrate that multiple evaluation runs mitigate this issue.
- Abstract(参考訳): 近年、強化学習(RL)による長期文脈推論モデルの訓練が進展しているにもかかわらず、いくつかのオープンな質問や反直感的行動が残されている。
本研究は, 1) RLにおける正試料と負試料の役割を系統的に解析し, 正試料が主にデータ適合を促進するのに対して, 負試料は一般化とロバスト性を大幅に向上させることを示す。
興味深いことに、負のサンプルのみのトレーニングは、標準のRLトレーニング性能に匹敵する可能性がある。
2) グループ相対的政策最適化におけるデータ非効率性は, サンプルの半数以上がゼロ・アドバンテージである。
これを解決するために、相対長報酬とオフラインサンプルインジェクションを含む2つの簡単な戦略を検討し、これらのデータをよりよく活用し、推論効率と能力を高める。
(3)様々な推論モデルとベンチマークの不安定な性能について検討し、不明瞭な結果を伴う不確実な問題に対する不安定性の原因となり、複数の評価がこの問題を軽減することを実証する。
関連論文リスト
- Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。
LLM は RFT に非常に矛盾しない応答が可能である。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [48.33401015101481]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - When hard negative sampling meets supervised contrastive learning [17.173114048398947]
我々は、微調整フェーズ中にハードネガティブサンプリングを組み込んだ新しい教師付きコントラスト学習目標であるSCHaNeを導入する。
SchaNeは、様々なベンチマークで、トップ1の精度で強いベースラインBEiT-3を上回っている。
提案手法は,ImageNet-1kのベースモデルに対して,86.14%の精度で新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2023-08-28T20:30:10Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。