論文の概要: Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.03249v1
- Date: Tue, 03 Feb 2026 08:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.329986
- Title: Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning
- Title(参考訳): アコーディオンシンキング:効率的かつ可読なLDM推論のための自己制御ステップサマリ
- Authors: Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Wenlei Shi, Yiwei Wang, Xiaodan Liang, Jing Tang,
- Abstract要約: 我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
- 参考スコア(独自算出の注目度): 62.680551162054975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test-time compute via long Chain-ofThought unlocks remarkable gains in reasoning capabilities, yet it faces practical limits due to the linear growth of KV cache and quadratic attention complexity. In this paper, we introduce Accordion-Thinking, an end-to-end framework where LLMs learn to self-regulate the granularity of the reasoning steps through dynamic summarization. This mechanism enables a Fold inference mode, where the model periodically summarizes its thought process and discards former thoughts to reduce dependency on historical tokens. We apply reinforcement learning to incentivize this capability further, uncovering a critical insight: the accuracy gap between the highly efficient Fold mode and the exhaustive Unfold mode progressively narrows and eventually vanishes over the course of training. This phenomenon demonstrates that the model learns to encode essential reasoning information into compact summaries, achieving effective compression of the reasoning context. Our Accordion-Thinker demonstrates that with learned self-compression, LLMs can tackle complex reasoning tasks with minimal dependency token overhead without compromising solution quality, and it achieves a 3x throughput while maintaining accuracy on a 48GB GPU memory configuration, while the structured step summaries provide a human-readable account of the reasoning process.
- Abstract(参考訳): 長時間のChain-ofThoughtによるテスト時間計算のスケールアップは、推論能力の顕著な向上につながりますが、KVキャッシュの線形増加と二次的注意の複雑さのために、現実的な制限に直面しています。
本稿では,LLMが動的要約を通じて推論ステップの粒度を自己制御する,エンドツーエンドのフレームワークであるAccordion-Thinkingを紹介する。
このメカニズムはFold推論モードを可能にし、モデルがその思考プロセスを定期的に要約し、過去の思考を捨てて歴史的なトークンへの依存を減らす。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップは徐々に狭まり、最終的にはトレーニングの過程で消滅する。
この現象は、モデルが重要な推論情報をコンパクトな要約にエンコードし、推論コンテキストを効果的に圧縮することを学ぶことを示す。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMはソリューションの品質を損なうことなく、依存性トークンのオーバーヘッドを最小限に抑えた複雑な推論タスクに取り組み、48GBのGPUメモリ構成で精度を維持しながら3倍のスループットを実現し、構造化されたステップサマリは推論プロセスの人間可読な説明を提供することを示した。
関連論文リスト
- Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文 参考訳(メタデータ) (2025-08-05T11:48:18Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Read Before You Think: Mitigating LLM Comprehension Failures with Step-by-Step Reading [2.073147245888634]
大きな言語モデル(LLM)は、問題理解の欠陥によって複雑な推論タスクで失敗することが多い。
本稿では,これらの理解障害について,系統的研究を行う。
本稿では,ステップ・バイ・ステップ・レディング(SSR)ファミリについて紹介する。
論文 参考訳(メタデータ) (2025-04-13T02:10:18Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。