論文の概要: SIRI: Scaling Iterative Reinforcement Learning with Interleaved Compression
- arxiv url: http://arxiv.org/abs/2509.25176v1
- Date: Mon, 29 Sep 2025 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.153324
- Title: SIRI: Scaling Iterative Reinforcement Learning with Interleaved Compression
- Title(参考訳): SIRI:インターリーブ圧縮による反復強化学習のスケーリング
- Authors: Haoming Wen, Yushi Bai, Juanzi Li, Jie Tang,
- Abstract要約: 大規模共振モデル(LRM)のための簡易かつ効果的なRLアプローチであるInterleaved Compressionを用いたSIRI(Scaling Iterative Reinforcement Learning)を導入する。
このトレードオフは、推理予算の圧縮と拡大を反復的に交互に交互に行う訓練体制によって克服できることを示す。
また, 各圧縮膨張サイクルの後に, 出力長が減少しても, モデルの性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 48.04180854972225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression, a simple yet effective RL approach for Large Reasoning Models (LRMs) that enables more efficient and accurate reasoning. Existing studies have observed repetitive thinking patterns in LRMs, and attempts to reduce them often come at the cost of performance. In this paper, we show that this trade-off can be overcome through a training regime that iteratively alternates between compressing and expanding the reasoning budget, by dynamically adjusting the maximum rollout length during training. The compression phase cuts the rollout length, forcing the model to make precise and valuable decisions within a limited context, which effectively reduces redundant tokens and increases reasoning density. The expansion phase then relaxes the length limit, providing space for the model to explore and plan in long-horizon settings. Remarkably, we find that after each compression-expansion cycle, the model's performance improves even as its output length decreases, steadily pushing it closer to the Pareto frontier in the performance-efficiency trade-off. Training on DeepSeek-R1-Distill-Qwen-1.5B, SIRI-low improves performance on AIME24 by 43.2% while reducing token usage by 46.9% after three iterations, and SIRI-high achieves the highest accuracy compared to all other methods (Figure 1). Our findings shed light on the potential of periodically oscillating the LRM's output truncation length during training to dynamically balance exploration and efficiency in reasoning, converging towards an optimal "sweet spot" between the two. Our models are publicly available.
- Abstract(参考訳): SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression, a simple yet effective RL approach for Large Reasoning Models (LRMs) which enables more efficient and accurate reasoning。
既存の研究では、LRMの反復的な思考パターンが観察されており、それらを減らす試みは、しばしばパフォーマンスの犠牲になる。
本稿では,このトレードオフを,トレーニング中に最大ロールアウト長さを動的に調整することにより,推理予算の圧縮と拡張を反復的に交互に交互に行う訓練体制を通じて克服できることを示す。
圧縮フェーズはロールアウト期間を短縮し、モデルに限られたコンテキスト内で正確で価値のある決定を強制し、冗長なトークンを効果的に削減し、推論密度を増大させる。
拡張フェーズは長さ制限を緩和し、長い水平設定でモデルを探索し計画するためのスペースを提供する。
顕著なことに, 各圧縮膨張サイクルの後に, 出力長が減少しても, モデルの性能が向上し, 性能・効率トレードオフにおいてパレートフロンティアに着実に近づく。
DeepSeek-R1-Distill-Qwen-1.5Bのトレーニングでは、SIRI-lowはAIME24のパフォーマンスを43.2%改善し、3回のイテレーションでトークン使用量を46.9%削減した。
実験では, LRMの出力トランケーション長を周期的に振動させ, 推理における探索と効率を動的にバランスさせ, 両者の最適な「スイートスポット」に収束させる可能性が示唆された。
私たちのモデルは公開されています。
関連論文リスト
- AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains [15.89404914539006]
潜在空間における推論過程を動的に圧縮する新しいフレームワークであるCompressed Latent Reasoning (CoLaR)を紹介する。
CoLaRは、同等の圧縮比で遅延ベースのベースライン法よりも14.1%高い精度を達成する。
我々のRL強化CoLaRは、最大5.4%の性能向上を示しながら、遅延推論チェーン長を82.8%劇的に減少させる。
論文 参考訳(メタデータ) (2025-05-22T11:40:26Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Efficient RL Training for Reasoning Models via Length-Aware Optimization [104.97188611117353]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文 参考訳(メタデータ) (2025-05-18T07:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。