論文の概要: KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs
- arxiv url: http://arxiv.org/abs/2601.01046v1
- Date: Sat, 03 Jan 2026 02:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.967637
- Title: KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs
- Title(参考訳): KV埋め込み:デコーダのみのLLMにおける内部KV再配置による学習不要テキスト埋め込み
- Authors: Yixuan Tang, Yi Yang,
- Abstract要約: 凍結LDMの潜在表現力を活性化するフレームワークであるKV-Embeddingを提案する。
提案手法では, 各層における最終トークンのキー値(KV)状態が, シーケンスの圧縮されたビューを符号化する。
KV-Embeddingは,最大4,096個のトークンに対して堅牢な性能を維持しつつ,トレーニング不要のベースラインを最大10%向上させることを示す。
- 参考スコア(独自算出の注目度): 12.949322198287417
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While LLMs are powerful embedding backbones, their application in training-free settings faces two structural challenges: causal attention restricts early tokens from accessing subsequent context, and the next-token prediction objective biases representations toward generation rather than semantic compression. To address these limitations, we propose KV-Embedding, a framework that activates the latent representation power of frozen LLMs. Our method leverages the observation that the key-value (KV) states of the final token at each layer encode a compressed view of the sequence. By re-routing these states as a prepended prefix, we enable all tokens to access sequence-level context within a single forward pass. To ensure model-agnostic applicability, we introduce an automated layer selection strategy based on intrinsic dimensionality. Evaluations on MTEB across Qwen, Mistral, and Llama backbones show that KV-Embedding outperforms existing training-free baselines by up to 10%, while maintaining robust performance on sequences up to 4,096 tokens. These results demonstrate that internal state manipulation offers an efficient alternative to input modification, and we hope this work encourages further exploration of LLM internals for representation learning.
- Abstract(参考訳): LLMは強力な埋め込みバックボーンであるが、トレーニング不要な設定での応用は2つの構造的課題に直面している。
これらの制約に対処するため,凍結LDMの潜在表現力を活性化するフレームワークKV-Embeddingを提案する。
提案手法では, 各層における最終トークンのキー値(KV)状態が, シーケンスの圧縮されたビューを符号化する。
これらの状態をプレフィックスとして再ルートすることで、すべてのトークンが単一のフォワードパス内でシーケンスレベルのコンテキストにアクセスできるようになる。
モデルに依存しない適用性を確保するため,本質的な次元性に基づく自動層選択戦略を導入する。
Qwen、Mistral、Llamaの各バックボーンにおけるMTEBの評価によると、KV-Embeddingは既存のトレーニング不要のベースラインを最大10%上回り、最大4,096個のトークンで堅牢なパフォーマンスを維持している。
これらの結果から, 内部状態操作が入力修正の代替となることが示され, 表現学習のためのLLM内部のさらなる探索が期待できる。
関連論文リスト
- IPCV: Information-Preserving Compression for MLLM Visual Encoders [44.76073540999133]
IPCVは、MLLMビジュアルエンコーダのためのトレーニング不要の情報保存圧縮フレームワークである。
トークンプルーニングによる負の影響を緩和するために,注意安定化(AS)を導入する。
IPCVはエンドツーエンドの計算を大幅に削減し、最先端のトレーニング不要なトークン圧縮手法より優れている。
論文 参考訳(メタデータ) (2025-12-21T14:28:28Z) - One Last Attention for Your Vision-Language Model [42.872184600248914]
微調整中に最終的な融合表現を明示的に活用するための textbfRational textbfAdaptaion (RAda) を提案する。
RAdaは、VLMの端に取り付けられた軽量の注意層から得られた学習マスクを用いて、有理行列の各要素の寄与を動的に校正する。
実験の結果、RADAは汎用的な微調整技術として機能し、最小限のコードでベースラインを改善し、ほとんどの設定で現行のアートと互換性のあるパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-21T10:35:32Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。
本稿では,Attention-Gateと呼ばれる軽量モジュールをモデルに注入することで,KVキャッシュの動的な消去ポリシーを実現する。
提案手法は複数のシナリオにまたがって実験的に評価され,冗長トークンの有効排除は効率を向上するだけでなく,性能も向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T05:01:19Z) - Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed
Representations [51.75960511842552]
事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。
オーバーフィッティングを減らすために,PLMの隠れ表現を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。