論文の概要: ArborKV: Structure-Aware KV Cache Management for Scaling Tree-based LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.22106v1
- Date: Thu, 21 May 2026 07:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.532376
- Title: ArborKV: Structure-Aware KV Cache Management for Scaling Tree-based LLM Reasoning
- Title(参考訳): ArborKV:木をベースとしたLLM推論のための構造対応KVキャッシュ管理
- Authors: Yeqiu Chen, Ziyan Liu, Zhenxin Huang, Runquan Gui, Hong Wang, Lei Liu,
- Abstract要約: Tree-of-Thoughts (ToT)は、ブランチとバックトラックによるツリー構造化検索に対する推論を整理する。
部分軌道のフロンティアにKV状態を保持することは、すぐにメモリボトルネックとなる。
本稿では,軽量な値推定器とツリーアウェアアロケーションポリシを結合した構造認識エビテーションフレームワークArborKVを提案する。
- 参考スコア(独自算出の注目度): 8.78883720506938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in LLM reasoning has increasingly shifted from single-pass generation to explicit search over intermediate reasoning states. Tree-of-Thoughts (ToT) organizes inference to tree-structured search with branching and backtracking, but it substantially amplifies the Key--Value (KV) cache: retaining KV states for a frontier of partial trajectories quickly becomes a memory bottleneck that limits throughput and constrains search depth and width under fixed hardware budgets. We address this challenge by observing that KV reuse in ToT-style inference is governed by search dynamics: near-term decoding depends primarily on the active branch and its ancestors, whereas inactive subtrees have low short-term reuse probability yet must remain recoverable for backtracking. Motivated by this, we propose ArborKV, a structure-aware eviction framework that couples a lightweight value estimator with a tree-aware allocation policy, and performs purely token-extractive eviction with lazy rehydration to support revisits. Experiments on ToT-style reasoning benchmarks show that ArborKV achieves up to ~4x peak KV-memory reduction while preserving near-full-retention accuracy, enabling larger search configurations under fixed device budgets that would otherwise run out of memory.
- Abstract(参考訳): LLM推論の最近の進歩は、シングルパス生成から中間的推論状態に対する明示的な探索へと変化しつつある。
Tree-of-Thoughts(ToT)は、分岐とバックトラックによるツリー構造化検索の推論を組織するが、キーバリュー(KV)キャッシュを実質的に増幅する。
ToT型推論におけるKVの再利用は探索力学によって制御される: 短期復号は主に活動枝とその祖先に依存するが、不活性なサブツリーは短期的再利用確率が低いが、バックトラックには回復可能でなければならない。
そこで本研究では,木木対応アロケーションポリシと軽量値推定器を結合した構造対応エビテーションフレームワークArborKVを提案し,遅延リハイドレーションによる純粋にトークン抽出エビテーションを行い,リビジットを支援する。
ToTスタイルの推論ベンチマークの実験では、ArborKVは最大4倍のピークKVメモリ削減を実現し、ほぼ完全な保持精度を保ち、メモリが切れる固定されたデバイス予算の下でより大きな検索構成を可能にする。
関連論文リスト
- Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction [65.710271475739]
我々は,各トークンの将来のユーティリティを統一メモリ予算の下で学習する,グローバルな保持に基づくKV消去手法を提案する。
提案手法は,フルキャッシュ推論に適合したり,超えたりしながら,KVメモリを大幅に削減することを示す。
これらの結果から,世界規模で校正されたKV消去は圧縮技術であるだけでなく,長文推論を改善するメカニズムでもあることが示唆された。
論文 参考訳(メタデータ) (2026-05-10T16:47:50Z) - When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding? [19.77569541429818]
投機的復号化はLLM推論を加速させるが、SOTAの隠れ状態に基づく起草者は長距離減衰に悩まされる。
我々はコンテキスト情報保存の観点から長距離減衰を再考する。
KVShotは3つの再利用パラダイムを比較する診断フレームワークである。
論文 参考訳(メタデータ) (2026-04-29T08:25:01Z) - Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics [22.98826013817833]
トークンレベルのルーティングの制御摂動として,KV圧縮を物理に着想を得た視点を提案する。
適度な圧縮は、内部表現をほとんど精度の低下なく劣化させ、冗長性を明らかにする。
トークンサバイバルにもかかわらず、過度なヘッドレベルのコンセンサスによってルーティングの柔軟性が崩壊する表現剛性を特定する。
論文 参考訳(メタデータ) (2026-03-02T04:16:36Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。
PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-09T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。