論文の概要: AdapShot: Adaptive Many-Shot In-Context Learning with Semantic-Aware KV Cache Reuse
- arxiv url: http://arxiv.org/abs/2605.03644v1
- Date: Tue, 05 May 2026 11:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.914793
- Title: AdapShot: Adaptive Many-Shot In-Context Learning with Semantic-Aware KV Cache Reuse
- Title(参考訳): AdapShot: セマンティックなKVキャッシュ再利用による多面的インコンテキスト学習
- Authors: Jie Ou, Jinyu Guo, Shiyao Guo, Yuang Li, Ruiqi Wu, Zhaokun Wang, Wenyi Li, Wenhong Tian,
- Abstract要約: Many-Shot In-Context Learning (ICL) は,大規模言語モデル (LLM) の推論能力を解き放つために,広範な実例を活用する,有望なパラダイムとして登場した。
ショットカウントを動的に最適化し,効率的な推論のためにKVキャッシュの再利用を利用するAdapShotを提案する。
AdapShotは最先端のDBSAと比較して、平均パフォーマンスの10%と4.64倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 21.022571928035273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many-Shot In-Context Learning (ICL) has emerged as a promising paradigm, leveraging extensive examples to unlock the reasoning potential of Large Language Models (LLMs). However, existing methods typically rely on a predetermined, fixed number of shots. This static approach often fails to adapt to the varying difficulty of different queries, leading to either insufficient context or interference from noise. Furthermore, the prohibitive computational and memory costs of long contexts severely limit Many-Shot's feasibility. To address the above limitations, we propose AdapShot, which dynamically optimizes shot counts and leverages KV cache reuse for efficient inference. Specifically, we design a probe-based evaluation mechanism that utilizes output entropy to determine the optimal number of shots. To bypass the redundant prefilling computation during both the probing and inference phases, we incorporate a semantics-aware KV cache reuse strategy. Within this reuse strategy, to address positional encoding incompatibilities, we introduce a decoupling and re-encoding method that enables the flexible reordering of cached key-value pairs. Extensive experiments demonstrate that AdapShot achieves an average performance gain of around 10% and a 4.64x speedup compared to state-of-the-art DBSA.
- Abstract(参考訳): Many-Shot In-Context Learning (ICL) は,大規模言語モデル (LLM) の推論能力を解き放つために,広範な実例を活用する,有望なパラダイムとして登場した。
しかし、既存の方法は通常、所定の数のショットに頼っている。
この静的なアプローチは、異なるクエリのさまざまな難しさに適応できない場合が多く、状況が不十分であるかノイズからの干渉となる。
さらに、長いコンテキストにおける計算と記憶の禁止コストは、Multi-Shotの実現可能性を大幅に制限する。
上記の制限に対処するため、ショットカウントを動的に最適化し、KVキャッシュの再利用を効率的な推論に活用するAdapShotを提案する。
具体的には、出力エントロピーを利用して最適なショット数を決定するプローブベースの評価機構を設計する。
探索と推論の両段階における冗長なプリフィル計算を回避し, セマンティクスを意識したKVキャッシュ再利用戦略を取り入れた。
この再利用戦略では、位置符号化の不整合性に対処するため、キャッシュされたキーと値のペアのフレキシブルな並べ替えを可能にするデカップリングと再符号化方式を導入する。
大規模な実験では、AdapShotは最先端のDBSAと比較して10%程度の性能向上と4.64倍のスピードアップを達成した。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing [8.705453442427585]
大規模言語モデル(LLM)は様々な推論タスクでほぼ人間に近い性能を達成した。
リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、依然として現実的ではない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
論文 参考訳(メタデータ) (2025-11-06T02:55:07Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。
提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。
本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文 参考訳(メタデータ) (2025-06-05T05:23:38Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。