論文の概要: Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression
- arxiv url: http://arxiv.org/abs/2603.07598v1
- Date: Sun, 08 Mar 2026 11:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.898782
- Title: Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression
- Title(参考訳): CoT圧縮のための困難スケールセグメンテーションワイズRL
- Authors: Ye Tian, Aijun Liu,
- Abstract要約: CoT(Chain-of- Thought)は推論の信頼性を向上させるが、トークンコストを増大させる。
ナイーブなRLベースの圧縮は、ユーザ対応の回答を好ましくないほど短縮することができる。
難スケールセグメンテーションワイズGRPOを提案する。
- 参考スコア(独自算出の注目度): 3.6889211112573985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) improves reasoning reliability but increases token cost, motivating post-training compression of explicit reasoning traces. However, the shortest sufficient reasoning is not universal: it depends on difficulty, model capacity, and training state, making fixed length targets brittle. In practice, naive RL-based compression can also undesirably shorten the user-facing answer, because a single completion-level learning signal leaks across the think/answer boundary. We propose Difficulty-Scaled Segment-Wise GRPO (DSS-GRPO), which decomposes returns into think and answer components, computes group-relative advantages per segment, and routes them with hard token masks so compression updates act only on think while answer alignment acts only on answer. DSS-GRPO uses prompt-wise within-group shaping and difficulty-aware scaling to encourage concise reasoning without collapsing answer behavior.
- Abstract(参考訳): CoT(Chain-of- Thought)は推論の信頼性を向上させるが、トークンコストを増大させ、明示的な推論トレースのトレーニング後の圧縮を動機付ける。
しかし、最も短い推論は普遍的ではなく、難易度、モデル能力、訓練状態に依存し、固定長の目標が不安定になる。
実際には、単純なRLベースの圧縮は、シンク/アンサー境界を越えて単一の完了レベル学習信号がリークするため、ユーザ側の回答を好ましくは短縮することができる。
本稿では,リターンを思考・回答コンポーネントに分解し,セグメントごとのグループ相対的優位性を計算し,ハードトークンマスクで処理することで,回答アライメントが応答のみに作用しながら,思考のみに圧縮更新を行うDifficulty-Scaled Segment-Wise GRPO(DSS-GRPO)を提案する。
DSS-GRPOは、解答の動作を損なうことなく簡潔な推論を促進するために、迅速なグループ内形状と難易度対応スケーリングを使用する。
関連論文リスト
- Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning [39.72119774004103]
CoT(Chain-of-Thought)は、複雑な推論タスクに取り組むために、LLM(Large Language Models)を実質的に強化した。
明示的な推論ステップの冗長な性質は、推論の遅延と計算コストを禁止し、現実のデプロイメントを制限します。
本稿では,RLに基づく効率的な推論手法であるCEEH(Explore Harding)を提案する。
論文 参考訳(メタデータ) (2026-02-26T05:47:30Z) - PACE: Prefix-Protected and Difficulty-Aware Compression for Efficient Reasoning [37.125266434955584]
言語推論モデル(LRM)は、テスト時の計算をスケールすることで高いパフォーマンスを達成するが、しばしば過度に考えることに悩まされる」。
階層的管理下でのプレフィックス保護と難易度を考慮した圧縮のための2レベルフレームワークである textbfmodel を提案する。
論文 参考訳(メタデータ) (2026-02-12T06:43:08Z) - CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering [15.281365738928415]
既存のマルチホップRAGシステムは、各ステップで検索と推論を交互に行う。
オンライン推論からオフラインコーパス再構成を分離するフレームワークであるCompactRAGを提案する。
HotpotQA, 2WikiMultiHopQA, MuSiQue の実験では, CompactRAG がトークン消費を大幅に削減し,競争精度を向上することを示した。
論文 参考訳(メタデータ) (2026-02-05T14:52:06Z) - CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-01-24T11:41:54Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach [4.055489363682199]
推論長とモデル性能の関係について,最初の系統的研究を行った。
このトレードオフは、非常に明確な推論チェーンにまたがって持続することを示す。
提案手法は, 理論的な限界から遠く離れていることを示す。
論文 参考訳(メタデータ) (2025-03-03T03:48:20Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。