論文の概要: From Long to Lean: Performance-aware and Adaptive Chain-of-Thought Compression via Multi-round Refinement
- arxiv url: http://arxiv.org/abs/2509.22144v1
- Date: Fri, 26 Sep 2025 10:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.357276
- Title: From Long to Lean: Performance-aware and Adaptive Chain-of-Thought Compression via Multi-round Refinement
- Title(参考訳): 長期からリーンへ - 複数ラウンドのリファインメントによるパフォーマンス意識と適応的連鎖圧縮
- Authors: Jianzhi Yan, Le Liu, Youcheng Pan, Shiwei Chen, Zike Yuan, Yang Xiang, Buzhou Tang,
- Abstract要約: CoT(Chain-of-Thought)推論は複雑なタスクのパフォーマンスを改善するが、冗長性による遅延が大幅に増加する。
マルチラウンド適応チェイン・オブ・ソート圧縮(MACC)を提案する。
本手法は,最先端のベースラインに対して平均5.6%の精度向上を実現する。
- 参考スコア(独自算出の注目度): 21.015658035494514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning improves performance on complex tasks but introduces significant inference latency due to verbosity. We propose Multiround Adaptive Chain-of-Thought Compression (MACC), a framework that leverages the token elasticity phenomenon--where overly small token budgets can paradoxically increase output length--to progressively compress CoTs via multiround refinement. This adaptive strategy allows MACC to determine the optimal compression depth for each input. Our method achieves an average accuracy improvement of 5.6 percent over state-of-the-art baselines, while also reducing CoT length by an average of 47 tokens and significantly lowering latency. Furthermore, we show that test-time performance--accuracy and token length--can be reliably predicted using interpretable features like perplexity and compression rate on the training set. Evaluated across different models, our method enables efficient model selection and forecasting without repeated fine-tuning, demonstrating that CoT compression is both effective and predictable. Our code will be released in https://github.com/Leon221220/MACC.
- Abstract(参考訳): Chain-of-Thought(CoT)推論は複雑なタスクのパフォーマンスを改善するが、冗長性による大きな推論遅延をもたらす。
トークン弾性現象を利用するフレームワークであるMultiround Adaptive Chain-of-Thought Compression (MACC)を提案する。
この適応戦略により、MACCは各入力に対して最適な圧縮深さを決定することができる。
提案手法は,最先端のベースラインよりも平均5.6%の精度向上を実現し,CoT長を平均47トークン削減し,遅延を著しく低減する。
さらに,テスト時間の性能-精度とトークン長-が,トレーニングセットのパープレキシティや圧縮率といった解釈可能な特徴を用いて確実に予測可能であることを示す。
異なるモデル間で評価を行い,CoT圧縮が有効かつ予測可能であることを示す。
私たちのコードはhttps://github.com/Leon221220/MACCでリリースされます。
関連論文リスト
- Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework [10.148124073650349]
Chain-of-Thought(CoT)推論はLarge Language Models(LLMs)を強化する
より長いアウトプットは、レイテンシ、メモリ使用量、KV-cache要求を増加させる。
精度を保ちながらCOTを圧縮する適応型フレームワークSEER(Self-Enhancing Efficient Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-17T15:33:44Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping [3.521097198612099]
Adaptive GoGI-Skipは、教師付き微調整によって動的CoT圧縮を学ぶ新しいフレームワークである。
CoTトークンの数を平均で45%以上削減し、1.6~2.0倍の推論スピードアップを実現している。
特に、高い効率の圧縮速度でも精度を保ち、既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-05-13T09:39:18Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。