Fugu-MT 論文翻訳(概要): Stable Reinforcement Learning for Efficient Reasoning

論文の概要: Stable Reinforcement Learning for Efficient Reasoning

arxiv url: http://arxiv.org/abs/2505.18086v1
Date: Fri, 23 May 2025 16:43:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.22905
Title: Stable Reinforcement Learning for Efficient Reasoning
Title（参考訳）: 効率的な推論のための安定強化学習
Authors: Muzhi Dai, Shixuan Liu, Qingyi Si,
Abstract要約: GRPO-$lambda$ は GRPO の効率的で安定な変種である。正当率を監視して報酬戦略を動的に調整する。平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
参考スコア（独自算出の注目度）: 2.838966689544288
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The success of Deepseek-R1 has drawn the LLM community's attention to reinforcement learning (RL) methods like GRPO. However, such rule-based 0/1 outcome reward methods lack the capability to regulate the intermediate reasoning processes during chain-of-thought (CoT) generation, leading to severe overthinking phenomena. In response, recent studies have designed reward functions to reinforce models' behaviors in producing shorter yet correct completions. Nevertheless, we observe that these length-penalty reward functions exacerbate RL training instability: as the completion length decreases, model accuracy abruptly collapses, often occurring early in training. To address this issue, we propose a simple yet effective solution GRPO-$\lambda$, an efficient and stabilized variant of GRPO, which dynamically adjusts the reward strategy by monitoring the correctness ratio among completions within each query-sampled group. A low correctness ratio indicates the need to avoid length penalty that compromises CoT quality, triggering a switch to length-agnostic 0/1 rewards that prioritize reasoning capability. A high ratio maintains length penalties to boost efficiency. Experimental results show that our approach avoids training instability caused by length penalty while maintaining the optimal accuracy-efficiency trade-off. On the GSM8K, GPQA, MATH-500, AMC 2023, and AIME 2024 benchmarks, it improves average accuracy by 1.48% while reducing CoT sequence length by 47.3%.
Abstract（参考訳）: Deepseek-R1の成功により、LLMコミュニティはGRPOのような強化学習(RL)手法に注意を向けるようになった。しかしながら、このような規則に基づく0/1結果報酬法は、チェーン・オブ・ソート(CoT)生成中の中間的推論過程を制御する能力に欠けており、深刻な過大評価現象を引き起こしている。これに対し、近年の研究は、短いが正しい完成度を生み出す際にモデルの振舞いを補強する報酬関数を設計している。しかしながら,これらの長額報酬関数はRLトレーニングの不安定性を悪化させ,完成期間が減少するにつれて,モデル精度が急激に崩壊し,訓練の初期段階にしばしば発生する。この問題に対処するために, GRPO-$\lambda$という, 効率的かつ安定化されたGRPOの変種を提案し, 各問合せグループ内の完了率の正しさをモニタリングすることにより, 報酬戦略を動的に調整する。低正確度比は、CoTの品質を損なう長さのペナルティを避ける必要性を示し、推論能力の優先となる長さの0/1報酬に切り替える。高い比率は効率を高めるために長さのペナルティを維持する。実験結果から,最適な精度・効率のトレードオフを維持しつつ,長さのペナルティによるトレーニング不安定を回避できることが示唆された。 GSM8K、GPQA、MATH-500、AMC 2023、AIME 2024のベンチマークでは、平均精度を1.48%改善し、CoTシーケンスの長さを47.3%削減した。

関連論文リスト

Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文参考訳（メタデータ） (2026-02-27T20:23:59Z)
WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。 Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文参考訳（メタデータ） (2026-02-19T02:43:35Z)
On-Policy Supervised Fine-Tuning for Efficient Reasoning [27.67711115864118]
大規模推論モデル(LRM)は、長い連鎖推論を探索するために強化学習(RL)を用いて訓練されることが多い。近年の手法では, 正確さと簡潔さを両立させるため, マルチリワード目的を付加しているが, これらの複雑な拡張はトレーニングを不安定にし, 準最適トレードオフをもたらすことが多い。従来の精度を維持しつつ,CoT長を最大80まで短縮する簡易なSFTトレーニング戦略を提案する。
論文参考訳（メタデータ） (2026-02-13T19:16:39Z)
Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文参考訳（メタデータ） (2026-02-13T02:13:45Z)
Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文参考訳（メタデータ） (2026-01-06T12:31:51Z)
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。 DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文参考訳（メタデータ） (2025-10-16T20:05:57Z)
RoRecomp: Enhancing Reasoning Efficiency via Rollout Response Recomposition in Reinforcement Learning [45.850748558862364]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)における複雑な推論を導くのに有効であることが証明された。本稿では,学習データを戦略的に再コンパイルすることで,モデルから簡潔な推論へ導くプラグイン・アンド・プレイ手法であるRoRecompを提案する。
論文参考訳（メタデータ） (2025-09-30T08:54:38Z)
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文参考訳（メタデータ） (2025-09-08T17:36:21Z)
Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文参考訳（メタデータ） (2025-07-22T17:56:01Z)
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-07-16T17:59:24Z)
AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文参考訳（メタデータ） (2025-06-25T06:29:18Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文参考訳（メタデータ） (2025-05-23T18:44:46Z)
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-05-21T15:03:26Z)
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文参考訳（メタデータ） (2025-05-12T15:50:44Z)
Dynamic Early Exit in Reasoning Models [13.982812528756504]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-04-22T13:36:53Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。 OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文参考訳（メタデータ） (2025-02-10T18:57:29Z)
Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。 ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文参考訳（メタデータ） (2024-11-06T18:36:22Z)
LoRanPAC: Low-rank Random Features and Pre-trained Models for Bridging Theory and Practice in Continual Learning [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2024-10-01T12:58:37Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)
Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文参考訳（メタデータ） (2021-02-26T16:16:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。