論文の概要: Optimizing Length Compression in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.14755v1
- Date: Tue, 17 Jun 2025 17:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.598752
- Title: Optimizing Length Compression in Large Reasoning Models
- Title(参考訳): 大規模共振モデルにおける長さ圧縮の最適化
- Authors: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou,
- Abstract要約: 大規模な推論モデル(LRM)は、しばしば不要で冗長な推論連鎖を生成する。
冗長性の排除を提唱するBrevityと、批判的推論ステップの保存を保証するSufficiencyという、2つの新しいきめ細かい原則を提案する。
LC-R1は、全体的な簡潔さのためにリワード長(Reward Length)と、思考プロセスの無効部分を取り除くために特別に設計された圧縮リワード(Compress Reward)を組み合わせている。
- 参考スコア(独自算出の注目度): 15.730667464815548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have achieved remarkable success, yet they often suffer from producing unnecessary and verbose reasoning chains. We identify a core aspect of this issue as "invalid thinking" -- models tend to repeatedly double-check their work after having derived the correct answer. To address this specific inefficiency, we move beyond the general principles of Efficacy and Efficiency to propose two new, fine-grained principles: Brevity, which advocates for eliminating redundancy, and Sufficiency, which ensures critical reasoning steps are preserved. Guided by these principles, we introduce LC-R1, a post-training method based on Group Relative Policy Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for overall conciseness and a Compress Reward that is specifically designed to remove the invalid portion of the thinking process. Extensive experiments on multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant reduction in sequence length (~50%) with only a marginal (~2%) drop in accuracy, achieving a favorable trade-off point on the Pareto frontier that prioritizes high compression. Our analysis further validates the robustness of LC-R1 and provides valuable insights for developing more powerful yet computationally efficient LRMs. Our code is released at https://github.com/zxiangx/LC-R1.
- Abstract(参考訳): LRM(Large Reasoning Models)は顕著な成功を収めているが、しばしば不要で冗長な推論連鎖を生じる。
モデルでは、正しい回答を導いた後、繰り返し作業を確認する傾向があります。
この具体的な非効率性に対処するために、我々は、有効性と効率性の一般的な原則を超えて、2つの新しいきめ細かい原則を提案します。
これらの原則に基づき,グループ相対政策最適化(GRPO)に基づくポストトレーニング手法LC-R1を導入する。
LC-R1は、全体的な簡潔さにロングス・リワード(Longth Reward)と、思考プロセスの無効部分を取り除くために特別に設計された圧縮・リワード(Compress Reward)という新しい組み合わせを採用している。
複数の推論ベンチマークに関する大規模な実験により、LC-R1は限界(〜2%)の精度でシーケンス長(~50%)を大幅に短縮し、高い圧縮を優先するパレートフロンティアでの良好なトレードオフ点を達成した。
LC-R1のロバスト性をさらに検証し,より強力で計算効率の良いLEMの開発に有用な知見を提供する。
私たちのコードはhttps://github.com/zxiangx/LC-R1.comで公開されています。
関連論文リスト
- OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [33.008513399946914]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。
OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文 参考訳(メタデータ) (2025-06-03T03:31:30Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning [6.44608398856033]
Rec-R1は大規模言語モデル(LLM)をクローズドループ最適化を通じてレコメンデーションシステムでブリッジする。
プロンプトや教師付き微調整(SFT)とは異なり、Rec-R1は固定ブラックボックスレコメンデーションモデルからのフィードバックを使って直接LLM生成を最適化する。
論文 参考訳(メタデータ) (2025-03-31T16:36:00Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。