論文の概要: Sub-Token Routing in LoRA for Adaptation and Query-Aware KV Compression
- arxiv url: http://arxiv.org/abs/2604.21335v1
- Date: Thu, 23 Apr 2026 06:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.340246
- Title: Sub-Token Routing in LoRA for Adaptation and Query-Aware KV Compression
- Title(参考訳): 適応とクエリ対応KV圧縮のためのLoRAのサブトークンルーティング
- Authors: Wei Jiang, Wei Wang,
- Abstract要約: LoRA適応トランスにおけるトークン表現自体のルーティングについて検討する。
圧縮対応言語モデリングでは、ルーティングされたサブスペースLoRAとKVパス上の値群ルーティングを組み合わせたクエリ非依存の設計を導入する。
実験により,クエリ非依存の設計により,言語モデリングにおける品質圧縮トレードオフが改善されることが示された。
- 参考スコア(独自算出の注目度): 6.146072912338954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sub-token routing offers a finer control axis for transformer efficiency than the coarse units used in most prior work, such as tokens, pages, heads, or layers. In this paper, we study routing within a token representation itself in LoRA-adapted transformers. The motivation is that a relevant token need not be internally uniform: under a retention budget, preserved value groups are distributed unevenly both across tokens and within tokens, which suggests that KV compression need not be an all-or-nothing decision at token level. We study this fine-grained routing mechanism in two settings. For compression-aware language modeling, we introduce a query-independent design that combines routed subspace LoRA with value-group routing on the KV path. For downstream-task-preserving KV compression, we introduce a query-aware design in which a predictor-based selector allocates a global retention budget over context-token/value-group pairs using query-conditioned relevance. Experiments show that the query-independent design improves the quality-compression tradeoff for language modeling, while the query-aware design preserves downstream behavior under reduced KV budgets. We further examine the relation between token-level and sub-token-level query-aware routing, and show that they form complementary compression axes: token-level methods determine which tokens survive globally, while sub-token routing determines how the surviving tokens are compressed internally.
- Abstract(参考訳): サブトークンルーティングは、トークン、ページ、ヘッド、レイヤといったほとんどの前処理で使用される粗いユニットよりも、トランスフォーマー効率の細かい制御軸を提供する。
本稿では,LoRA適応トランスにおけるトークン表現自体のルーティングについて検討する。
保持予算の下では、保存された値群はトークンとトークンの両方に不均一に分散される。
本研究では,このきめ細かいルーティング機構を2つの設定で検討する。
圧縮対応言語モデリングでは、ルーティングされたサブスペースLoRAとKVパス上の値群ルーティングを組み合わせたクエリ非依存の設計を導入する。
ダウンストリーム・タスク保存型KV圧縮では、クエリ条件の関連性を利用して、予測器ベースのセレクタがコンテキスト-トークン/値-グループペアに対してグローバルな保持予算を割り当てるクエリ・アウェア・デザインを導入する。
実験により、クエリ非依存の設計は言語モデリングの品質圧縮トレードオフを改善する一方で、クエリ対応設計はKV予算の削減の下で下流の挙動を保っていることが示された。
さらにトークンレベルとサブトークンレベルのクエリアウェアルーティングの関係について検討し、それらが補完的な圧縮軸を形成することを示す。
関連論文リスト
- AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation [56.21301367698041]
AnchorSegを導入し、画像トークン上での条件生成の構造化として、推論セグメンテーションを再構成する。
我々は、アンカークエリがローカライズ信号を決定する画像トークン上の因子分布として空間条件をモデル化する。
Token-Mask Cycle Consistency (TMCC)を提案する。
論文 参考訳(メタデータ) (2026-04-20T17:49:22Z) - Towards Joint Quantization and Token Pruning of Vision-Language Models [53.978753457744055]
トークンプルーニングと低ビット量子化は、推論コストの削減を補完する。
我々は、低ビット推論と決定論的視覚トーケンプルーニングを統一する協調量子化&プルーニングフレームワークを提案する。
標準VLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が改善された。
論文 参考訳(メタデータ) (2026-04-19T08:18:29Z) - Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics [22.98826013817833]
トークンレベルのルーティングの制御摂動として,KV圧縮を物理に着想を得た視点を提案する。
適度な圧縮は、内部表現をほとんど精度の低下なく劣化させ、冗長性を明らかにする。
トークンサバイバルにもかかわらず、過度なヘッドレベルのコンセンサスによってルーティングの柔軟性が崩壊する表現剛性を特定する。
論文 参考訳(メタデータ) (2026-03-02T04:16:36Z) - SpecAttn: Co-Designing Sparse Attention with Self-Speculative Decoding [3.47505166101801]
SpecAttnは、検証誘導スパースアテンションを持つ自己投機的復号法である。
バニラ自動回帰復号法よりも2.81$times$高いスループットと、最先端のパリティベースの復号法よりも1.29$times$高いスループットを実現している。
論文 参考訳(メタデータ) (2026-02-06T22:12:52Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。