論文の概要: Activation Steering for Chain-of-Thought Compression
- arxiv url: http://arxiv.org/abs/2507.04742v2
- Date: Tue, 08 Jul 2025 02:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.8239
- Title: Activation Steering for Chain-of-Thought Compression
- Title(参考訳): 座屈圧縮の活性化ステアリング
- Authors: Seyedarmin Azizi, Erfan Baghaei Potraghloo, Massoud Pedram,
- Abstract要約: Activation-Steered Compression (ASC) は、隠れた表現を直接修正することで、推論トレースを短縮する推論時間技術である。
我々は, 冗長な英語重のCoTと簡潔な数学中心のCoTが, モデルの残差ストリーム活性化空間の異なる領域を占めることを観察した。
トレーニング不要の方法として、ASCは無視可能なオーバーヘッドを導入し、MATH500では、エンドツーエンドのウォールクロック実行時に平均2.73倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 4.825037489691159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at complex reasoning when they include intermediate steps, known as "chains of thought" (CoTs). However, these rationales are often overly verbose, even for simple problems, leading to wasted context, increased latency, and higher energy consumption. We observe that verbose, English-heavy CoTs and concise, math-centric CoTs occupy distinct regions in the model's residual-stream activation space. By extracting and injecting a "steering vector" to transition between these modes, we can reliably shift generation toward more concise reasoning, effectively compressing CoTs without retraining. We formalize this approach as Activation-Steered Compression (ASC), an inference-time technique that shortens reasoning traces by directly modifying hidden representations. In addition, we provide a theoretical analysis of the impact of ASC on the output distribution, derived from a closed-form KL-divergence-bounded constraint to regulate steering strength. Using only 100 paired verbose and concise examples, ASC achieves up to 67.43% reduction in CoT length on MATH500 and GSM8K datasets, while maintaining accuracy across 7B, 8B, and 32B parameter models. As a training-free method, ASC introduces negligible runtime overhead and, on MATH500, delivers an average 2.73x speedup in end-to-end reasoning wall-clock time on an 8B model. This makes ASC a practical and efficient tool for streamlining the deployment of reasoning-capable LLMs in latency- or cost-sensitive settings. The code is available at: https://github.com/ArminAzizi98/ASC
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な推論において「思考の連鎖」(CoT)と呼ばれる中間ステップを含むと優れている。
しかし、これらの理性は単純な問題であっても過度に冗長であり、時間の浪費、遅延の増加、エネルギー消費の増加につながる。
我々は, 冗長な英語重のCoTと簡潔な数学中心のCoTが, モデルの残差ストリーム活性化空間の異なる領域を占めることを観察した。
これらのモード間の遷移に「ステアリングベクトル」を抽出し注入することにより、我々は生成をより簡潔な推論へと確実にシフトさせ、再学習せずに効果的にCOTを圧縮することができる。
我々は,この手法を,隠れ表現を直接修正することで推論トレースを短縮する推論時間手法である Activation-Steered Compression (ASC) として定式化する。
さらに, ASC が出力分布に及ぼす影響を理論的に解析し, ステアリング強度を調節するクローズドフォーム KL-ディバージェンス-バウンド制約から導出した。
100対の動詞と簡潔な例のみを用いて、ASCは7B、8B、32Bパラメータモデルで精度を維持しながら、MATH500およびGSM8Kデータセット上で最大67.43%のCoT長の削減を達成する。
トレーニング不要の手法として、ASCは無視可能なランタイムオーバーヘッドを導入し、MATH500では8Bモデルでエンドツーエンドの推論ウォールタイムで平均2.73倍のスピードアップを提供する。
これにより、ASCは、レイテンシやコストに敏感な設定において、推論可能なLLMのデプロイを合理化するための実用的で効率的なツールになります。
コードは、https://github.com/ArminAzizi98/ASCで入手できる。
関連論文リスト
- R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。