論文の概要: Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping
- arxiv url: http://arxiv.org/abs/2505.08392v1
- Date: Tue, 13 May 2025 09:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.509629
- Title: Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping
- Title(参考訳): チェーン・オブ・ワットの推論を加速する: ゴールグラディエントな重要度がダイナミックなスキッピングと出会うとき
- Authors: Ren Zhuang, Ben Wang, Shuifa Sun,
- Abstract要約: Adaptive GoGI-Skipは、教師付き微調整によって動的CoT圧縮を学ぶ新しいフレームワークである。
CoTトークンの数を平均で45%以上削減し、1.6~2.0倍の推論スピードアップを実現している。
特に、高い効率の圧縮速度でも精度を保ち、既存のベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 3.521097198612099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models leverage Chain-of-Thought (CoT) prompting for complex tasks, but their reasoning traces are often excessively verbose and inefficient, leading to significant computational costs and latency. Current CoT compression techniques typically rely on generic importance metrics and static compression rates, which may inadvertently remove functionally critical tokens or fail to adapt to varying reasoning complexity. To overcome these limitations, we propose Adaptive GoGI-Skip, a novel framework learning dynamic CoT compression via supervised fine-tuning. This approach introduces two synergistic innovations: (1) Goal-Gradient Importance (GoGI), a novel metric accurately identifying functionally relevant tokens by measuring the gradient influence of their intermediate representations on the final answer loss, and (2) Adaptive Dynamic Skipping (ADS), a mechanism dynamically regulating the compression rate based on runtime model uncertainty while ensuring local coherence through an adaptive N-token constraint. To our knowledge, this is the first work unifying a goal-oriented, gradient-based importance metric with dynamic, uncertainty-aware skipping for CoT compression. Trained on compressed MATH data, Adaptive GoGI-Skip demonstrates strong cross-domain generalization across diverse reasoning benchmarks including AIME, GPQA, and GSM8K. It achieves substantial efficiency gains - reducing CoT token counts by over 45% on average and delivering 1.6-2.0 times inference speedups - while maintaining high reasoning accuracy. Notably, it significantly outperforms existing baselines by preserving accuracy even at high effective compression rates, advancing the state of the art in the CoT reasoning efficiency-accuracy trade-off.
- Abstract(参考訳): 大規模言語モデルは、複雑なタスクを促すためにChain-of-Thought(CoT)を利用するが、その推論トレースはしばしば冗長で非効率であり、計算コストと遅延が大幅に増加する。
現在のCoT圧縮技術は一般的に一般的な重要度と静的圧縮率に依存しており、関数的に重要なトークンを誤って取り除いたり、様々な推論の複雑さに適応できなかったりする。
これらの制約を克服するために,教師付き微調整による動的CoT圧縮を学習する新しいフレームワークであるAdaptive GoGI-Skipを提案する。
提案手法は,(1)ゴール・グラディエント・インシデンス(GoGI)と(2)適応動的スキッピング(ADS)の2つの相乗的革新を導入し,(1)目標・グラディエント・インシデンス(GoGI)と(2)適応的N-token制約による局所的コヒーレンスを確保しつつ,実行モデルの不確実性に基づいて圧縮速度を動的に制御する機構について述べる。
私たちの知る限り、これはCoT圧縮のための動的で不確実性を認識したスキップを備えた、ゴール指向の勾配に基づく重要度メトリクスを統一する最初の作業です。
圧縮MATHデータに基づいて、Adaptive GoGI-Skipは、AIME、GPQA、GSM8Kを含む様々な推論ベンチマークにおいて、強力なクロスドメインの一般化を示す。
CoTトークンの数を平均で45%以上削減し、推論速度を1.6~2.0倍に向上させ、高い推論精度を維持しながら、大幅な効率向上を実現している。
特に、高い効率の圧縮速度でも精度を保ち、CoT推論効率のトレードオフの最先端を推し進めることで、既存のベースラインを著しく上回ります。
関連論文リスト
- Outlier-aware Tensor Robust Principal Component Analysis with Self-guided Data Augmentation [21.981038455329013]
適応重み付けを用いた自己誘導型データ拡張手法を提案する。
本研究では,最先端手法と比較して精度と計算効率の両面での改善を示す。
論文 参考訳(メタデータ) (2025-04-25T13:03:35Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReason は軽量モデルを用いて LRM 推論を加速し、より単純な中間推論ステップを実行するシステムである。
1.5-2.5$times$ speedup over vanilla LRM inferenceを達成し、精度は1.0-9.9%向上した。
SpecReasonなしでの投機的復号化と比較すると、それらの組み合わせは19.4-44.2%のレイテンシ削減をもたらす。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
組み合わせると、空間性と量子化がどう相互作用するかを示す。
仮に正しい順序で適用しても、スパーシリティと量子化の複合誤差は精度を著しく損なう可能性があることを示す。
我々の発見は、資源制約の計算プラットフォームにおける大規模モデルの効率的な展開にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - Compressing gradients by exploiting temporal correlation in momentum-SGD [17.995905582226463]
エラーフィードバックのないシステムにおける時間相関を利用した圧縮手法を解析する。
ImageNetデータセットを用いた実験により,提案手法は通信速度を著しく低減することを示した。
我々は、最小勾配ノルムの有界性を確立することにより、予測誤差仮定の下でSGDの収束を証明した。
論文 参考訳(メタデータ) (2021-08-17T18:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。