論文の概要: Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.10048v1
- Date: Tue, 10 Feb 2026 18:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.740451
- Title: Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
- Title(参考訳): 微粒化グループ政策最適化による長鎖圧縮
- Authors: Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin,
- Abstract要約: 大規模言語モデル(LLM)は、不要に冗長なChain-of-Thought(CoT)推論を生成する。
textbfFine-fine textbfGroup policy textbfOptimization (textbfFGO)を提案する。
FGOは、グループを分割し、長さとエントロピーに基づいて適切な重みを割り当てることで、グループ応答を洗練し、効果的なCoT圧縮を可能にする。
- 参考スコア(独自算出の注目度): 6.221775342067641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often generate unnecessarily verbose Chain-of-Thought (CoT) reasoning that increases computational costs and latency without proportional performance gains. In this paper, we propose \textbf{F}ine-grained \textbf{G}roup policy \textbf{O}ptimization (\textbf{FGO}), a Reinforcement Learning (RL) algorithm that refines group responses by subdividing them and assigning appropriate weights based on length and entropy, thereby enabling effective CoT compression. Meanwhile, as an enhanced variant of Group Relative Policy Optimization (GRPO), FGO successfully addresses two major limitations of the GRPO: inefficient data utilization and entropy collapse. We evaluate FGO on multiple reasoning LLMs and benchmarks, including MATH500, AIME24, AMC23, and Minerva. Experimental results show that FGO achieves efficient CoT compression without degrading performance, and simultaneously resolves the key limitations of GRPO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば不必要に冗長なChain-of-Thought(CoT)推論を生成する。
本稿では、グループ応答を分割し、長さとエントロピーに基づいて適切な重みを割り当てることで、効果的なCoT圧縮を可能にする強化学習(RL)アルゴリズムである、 \textbf{F}ine-fine \textbf{G}roup Policy \textbf{O}ptimization (\textbf{FGO})を提案する。
一方、グループ相対政策最適化(GRPO)の拡張版として、FGOはGRPOの2つの大きな制限、すなわち非効率なデータ利用とエントロピー崩壊に対処することに成功している。
我々は、MATH500, AIME24, AMC23, Minerva など、複数の推論 LLM およびベンチマーク上で FGO を評価する。
実験結果から,FGOは効率の良いCoT圧縮を実現し,GRPOの限界を同時に解決することがわかった。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization [68.89915707647138]
大規模推論モデル(LRM)は、長い推論連鎖の生成を通じて複雑なタスクを解く際、印象的な能力を示した。
textbfCoSMo(textbfSplit-textbfMerge textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2026-02-03T05:54:28Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward [10.640867597958863]
提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。
自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。
我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-05T09:13:37Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Balancing LoRA Performance and Efficiency with Simple Shard Sharing [8.827921242078883]
textbfOptimal textbfShard textbfIntegration in textbfLoRAは、単純なシャード共有機構を通じて、このトレードオフに対処する新しいPEFTアプローチである。
Fossilsは、標準的なLoRAと、その顕著な変種を、モデルパフォーマンスメトリクスと計算効率の両方で大幅に上回っている。
論文 参考訳(メタデータ) (2024-09-19T10:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。