論文の概要: Zipping the Thought: When and How Compressed Reasoning Data Works in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2605.28008v1
- Date: Wed, 27 May 2026 06:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.788114
- Title: Zipping the Thought: When and How Compressed Reasoning Data Works in LLM Post-Training
- Title(参考訳): LLM後の学習において、いつ、どのように圧縮された推論データが機能するか
- Authors: Kohsei Matsutani, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論によって複雑な問題を解くことができる。
パフォーマンスとトークンコストのトレードオフは依然として中心的な課題です。
本稿では, Explicit CoT, Composed CoT, Implicit CoTからなるCoTの分類法を提案する。
- 参考スコア(独自算出の注目度): 41.976487058248345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can now solve complex problems through long chain-of-thought (CoT) reasoning, but the trade-off between performance and token cost remains a central challenge. To address this issue, supervised fine-tuning (SFT) often uses compressed reasoning data, where CoT traces are shortened into compact forms. However, the effect of such compressed reasoning data on post-training remains poorly understood. In this paper, we propose a taxonomy of CoT consisting of Explicit CoT, which outputs all operations without aggregation, Composed CoT, which combines multiple operations into a single step, and Implicit CoT, which omits intermediate operations. We construct a synthetic compositional reasoning task that allows controlled variation of difficulty, compression granularity, and data size, and conducted a comprehensive set of experiments across different model families and sizes. Notably, we find that (i) coarser CoT requires more SFT data, (ii) compared with Explicit CoT, Composed CoT and Implicit CoT benefit more from data scaling, while Composed CoT benefits from data repetition and Implicit CoT tends to lead to memorization, (iii) unlike SFT, subsequent reinforcement learning (RL) with verifiable rewards (RLVR) decomposes compressed steps learned during SFT, and (iv) unidirectional CoT ordering shows stronger generalization on longer sequential tasks. Our findings provide implications for CoT design under data resource constraints and offer important insights into the mechanisms of SFT and RL in LLM post-training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑な問題を解決することができるが、パフォーマンスとトークンコストのトレードオフは依然として中心的な課題である。
この問題に対処するために、教師付き微調整(SFT)はしばしば圧縮推論データを使用し、CoTトレースをコンパクトな形式に短縮する。
しかし、そのような圧縮推論データがポストトレーニングに与える影響はよく分かっていない。
本稿では,集約なしで全ての操作を出力するExplicit CoT,複数の操作をひとつのステップにまとめるComposted CoT,中間操作を省略するImplicit CoTからなるCoTの分類法を提案する。
本研究では, 難易度, 圧縮粒度, データサイズを制御可能な合成合成推論タスクを構築し, モデルファミリ, サイズにまたがる総合的な実験を行った。
注目すべきは、私たちはそれを見つけることだ。
(i)粗いCoTはより多くのSFTデータを必要とする。
(ii) Explicit CoT, Composed CoT, Implicit CoTと比べ, Composed CoT はデータ反復によるメリットと Implicit CoT はメモリ化につながる傾向にある。
(iii)SFTとは異なり、後続の強化学習(RLVR)はSFTで学んだ圧縮ステップを分解する。
(iv)一方向CoT順序付けは、長い逐次タスクに対してより強い一般化を示す。
本研究は,データ資源制約下でのCoT設計に影響を及ぼし,LLM後トレーニングにおけるSFTとRLのメカニズムに関する重要な知見を提供する。
関連論文リスト
- Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization [55.6995787502694]
本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。
代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。
実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
論文 参考訳(メタデータ) (2025-11-27T16:19:34Z) - Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization [35.16980045900664]
変圧器に基づく言語モデル(LM)の展開において、分散シフト下における新しい複合タスクへの一般化が重要である
本研究は、OODの一般化を促進する手段として、Chain-of-Thought (CoT)推論を考察する。
論文 参考訳(メタデータ) (2025-02-25T15:04:17Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - C3oT: Generating Shorter Chain-of-Thought without Compromising Effectiveness [18.073777359647515]
解答の導出前のChain-of-Thought(CoT)は、大規模言語モデル(LLM)の推論能力を改善することができる。
しかし、生成したCoTの長さは、望ましい最終回答よりもはるかに長いため、さらなる復号コストが生じる。
本稿では、圧縮機がオリジナルの長いCoTを短いCoTに圧縮するCOT圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-16T11:12:45Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。