論文の概要: CLORE: Content-Level Optimization for Reasoning Efficiency
- arxiv url: http://arxiv.org/abs/2605.22211v1
- Date: Thu, 21 May 2026 09:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.543653
- Title: CLORE: Content-Level Optimization for Reasoning Efficiency
- Title(参考訳): CLORE: 推論効率向上のためのコンテンツレベル最適化
- Authors: Yuyang Wu, Qiyao Xue, Guanxing Lu, Weichen Liu, Zihan Wang, Manling Li, Olexandr Isayev,
- Abstract要約: そこで本稿では,適切なオンラインロールアウトを編集することで推論効率を向上させるコンテントレベルの最適化フレームワークを提案する。
CLOREは、外部拡張モデルを使用して、繰り返しセグメント、不可解またはタスク非関連コンテンツ、そしてソリューションが確立された後の過剰な推論を削除します。
実験の結果、CLOREは精度-効率トレードオフを改善し、GRPO、DAPO、Training Efficient、ThinkPruneと互換性を保っています。
- 参考スコア(独自算出の注目度): 25.563467006637833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning post-training has improved the reasoning ability of large language models, but often produces unnecessarily long, repetitive, or semantically opaque reasoning traces. Existing efficient reasoning methods mainly regulate response length through explicit budgets or length-aware rewards, leaving intermediate reasoning content weakly supervised. We propose CLORE, a content-level optimization framework that improves reasoning efficiency by editing correct on-policy rollouts. CLORE uses an external augmentation model to delete repetitive segments, illegible or task-irrelevant content, and superfluous reasoning after the solution is established, while preserving the final answer. The resulting augmented--original pairs are optimized with an auxiliary reference-free DPO objective alongside standard policy-gradient training. By restricting augmentation to correct trajectories and performing local deletion, CLORE keeps edited rollouts close to the policy distribution and mitigates off-policy mismatch. Experiments on DeepSeek-R1-Distill-Qwen-7B and Qwen2.5-Math-7B across five mathematical reasoning benchmarks show that CLORE improves the accuracy--efficiency trade-off and remains compatible with GRPO, DAPO, Training Efficient, and ThinkPrune. Content-level analyses further show that CLORE reduces repetitive reasoning, illegible content, and post-answer exploration, supporting content-level supervision as a complementary direction to length-level control.
- Abstract(参考訳): 強化学習後の学習は、大きな言語モデルの推論能力を改善したが、多くの場合、必要以上に長く、繰り返し、あるいは意味的に不透明な推論トレースを生成する。
既存の効率的な推論手法は主に、明確な予算や長さ認識の報酬を通じて応答長を規制し、中間的推論内容は弱く管理されている。
そこで我々はCLOREを提案する。CLOREは、オンラインのロールアウトを正しく編集することで推論効率を向上するコンテンツレベルの最適化フレームワークである。
CLOREは、外部拡張モデルを使用して、繰り返しセグメント、不可解またはタスク非関連コンテンツ、およびソリューションが確立された後の過剰な推論を削除し、最終回答を保存します。
結果として得られる拡張原型ペアは、標準のポリシー段階のトレーニングと並行して、補助的な参照なしDPO目標で最適化される。
CLOREは、軌道の修正と局所的な削除を制限することによって、ポリシーの配布に近いロールアウトを編集し、非政治的なミスマッチを緩和する。
DeepSeek-R1-Distill-Qwen-7B と Qwen2.5-Math-7B の5つの数学的推論ベンチマークによる実験により、CLORE は精度と効率のトレードオフを改善し、GRPO, DAPO, Training Efficient, ThinkPrune と互換性を持つことが示された。
さらに、コンテンツレベルの分析により、CLOREは反復的推論、不可解なコンテンツ、検索後の探索を減らし、コンテンツレベルの監督を長さレベルの制御に補完する方向としてサポートしている。
関連論文リスト
- Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Leash: Adaptive Length Penalty and Reward Shaping for Efficient Large Reasoning Model [12.881680088950008]
LeashはLLMの効率的な推論のための強化学習フレームワークである。
Leashは、さまざまなタスクで平均推論の長さを60%削減します。
そこで本研究は, 制御可能かつ効率的なLCMを開発するための, 実用的で効果的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-12-25T07:16:26Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization [5.674809920704963]
Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-05T12:50:39Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。