Fugu-MT 論文翻訳(概要): Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning

論文の概要: Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning

arxiv url: http://arxiv.org/abs/2505.13866v1
Date: Tue, 20 May 2025 03:21:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.651129
Title: Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning
Title（参考訳）: 推論経路圧縮:効率的なLLM推論のための生成軌道圧縮
Authors: Jiwon Song, Dongwon Jo, Yulhwa Kim, Jae-Joon Kim,
Abstract要約: Reasoning Path Compression (RPC) は推論を高速化する訓練のない手法である。 RPCは、完全なKVキャッシュの推論と比較して、QwQ-32Bの生成スループットを最大1.60$times$で改善することを示す。本研究は, 推理トレースのセマンティック・スパシティを効果的に圧縮に利用し, 推理LSMの効率的な展開に向けた実践的な道筋を提供することを実証した。
参考スコア（独自算出の注目度）: 4.856070170902535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent reasoning-focused language models achieve high accuracy by generating lengthy intermediate reasoning paths before producing final answers. While this approach is effective in solving problems that require logical thinking, long reasoning paths significantly increase memory usage and throughput of token generation, limiting the practical deployment of such models. We propose Reasoning Path Compression (RPC), a training-free method that accelerates inference by leveraging the semantic sparsity of reasoning paths. RPC periodically compresses the KV cache by retaining KV cache that receive high importance score, which are computed using a selector window composed of recently generated queries. Experiments show that RPC improves generation throughput of QwQ-32B by up to 1.60$\times$ compared to the inference with full KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our findings demonstrate that semantic sparsity in reasoning traces can be effectively exploited for compression, offering a practical path toward efficient deployment of reasoning LLMs. Our code is available at https://github.com/jiwonsong-dev/ReasoningPathCompression.
Abstract（参考訳）: 近年の推論に焦点をあてた言語モデルでは, 終末解を生成する前に, 長大な中間推論経路を生成することにより, 高い精度を達成している。このアプローチは論理的思考を必要とする問題を解決するのに有効であるが、長い推論パスはトークン生成のメモリ使用量とスループットを大幅に増加させ、そのようなモデルの実際の展開を制限する。本稿では、推論経路のセマンティックな間隔を利用して推論を高速化する訓練不要な手法であるReasoning Path Compression (RPC)を提案する。 RPCは、最近生成されたクエリからなるセレクタウィンドウを用いて計算される、高い重要スコアを受けるKVキャッシュを保持することで、定期的にKVキャッシュを圧縮する。実験の結果、RPCは完全なKVキャッシュの推論と比較してQwQ-32Bの生成スループットを最大1.60$\times$で改善し、AIME 2024ベンチマークでは精度が1.2%低下した。本研究は, 推理トレースのセマンティック・スパシティを効果的に圧縮に利用し, 推理LSMの効率的な展開に向けた実践的な道筋を提供することを実証した。私たちのコードはhttps://github.com/jiwonsong-dev/ReasoningPathCompression.comで公開されています。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文参考訳（メタデータ） (2025-06-13T06:49:53Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。 CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文参考訳（メタデータ） (2025-05-22T16:06:59Z)
RAP: Runtime-Adaptive Pruning for LLM Inference [7.793451450945128]
我々は、強化学習(RL)によって駆動される弾力的な刈り取りフレームワークであるRAPを提案する。 RAPは、実際の実行におけるモデルパラメータとKV-cacheの進化率を追跡する。 RAPは最先端のベースラインよりも優れており、モデル重量とKVcacheを同時に検討するのは初めてである。
論文参考訳（メタデータ） (2025-05-22T06:12:42Z)
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文参考訳（メタデータ） (2025-04-10T16:05:19Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
BalanceKV: KV Cache Compression through Discrepancy Theory [11.235024582188288]
大規模言語モデル(LLM)は目覚ましい成功を収めたが、その高いメモリ要件は、長文トークン生成の課題である。本稿では,Banaszczykのベクトルバランス理論に基づく幾何サンプリングプロセスに基づくKVキャッシュ圧縮手法であるBa balanceKVを提案する。
論文参考訳（メタデータ） (2025-02-11T17:18:17Z)
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [24.48498639513474]
基本圧縮単位としてチャンク内のトークンをグループ化してチャンクKVを導入する。 ChunkKVは異なる層にまたがって保存された指標に高い類似性を示す。我々は,LongBench や Needle-In-A-HayStack,GSM8K や JailbreakV など,最先端の長文ベンチマークに対する ChunkKV の評価を行った。
論文参考訳（メタデータ） (2025-02-01T03:49:47Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。