論文の概要: LLM-based Embeddings: Attention Values Encode Sentence Semantics Better Than Hidden States
- arxiv url: http://arxiv.org/abs/2602.01572v1
- Date: Mon, 02 Feb 2026 03:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.860492
- Title: LLM-based Embeddings: Attention Values Encode Sentence Semantics Better Than Hidden States
- Title(参考訳): LLMベースの埋め込み:隠れた状態よりも意味論をコード化する注意値
- Authors: Yeqin Zhang, Yunfei Wang, Jiaxuan Chen, Ke Qin, Yizheng Zhao, Cam-Tu Nguyen,
- Abstract要約: 文表現は多くの自然言語処理(NLP)アプリケーションの基礎となっている。
本稿では,注目値ベクトルが隠れ状態よりも文の意味を効果的に捉えていることを示す,新しい視点を紹介する。
- 参考スコア(独自算出の注目度): 13.418437639290532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence representations are foundational to many Natural Language Processing (NLP) applications. While recent methods leverage Large Language Models (LLMs) to derive sentence representations, most rely on final-layer hidden states, which are optimized for next-token prediction and thus often fail to capture global, sentence-level semantics. This paper introduces a novel perspective, demonstrating that attention value vectors capture sentence semantics more effectively than hidden states. We propose Value Aggregation (VA), a simple method that pools token values across multiple layers and token indices. In a training-free setting, VA outperforms other LLM-based embeddings, even matches or surpasses the ensemble-based MetaEOL. Furthermore, we demonstrate that when paired with suitable prompts, the layer attention outputs can be interpreted as aligned weighted value vectors. Specifically, the attention scores of the last token function as the weights, while the output projection matrix ($W_O$) aligns these weighted value vectors with the common space of the LLM residual stream. This refined method, termed Aligned Weighted VA (AlignedWVA), achieves state-of-the-art performance among training-free LLM-based embeddings, outperforming the high-cost MetaEOL by a substantial margin. Finally, we highlight the potential of obtaining strong LLM embedding models through fine-tuning Value Aggregation.
- Abstract(参考訳): 文表現は多くの自然言語処理(NLP)アプリケーションの基礎となっている。
近年の手法ではLarge Language Models (LLM) を用いて文表現を導出するが、ほとんどの場合、次のトーケン予測に最適化された最終層隠れ状態に依存しているため、大域的、文レベルのセマンティクスのキャプチャに失敗する。
本稿では,注目値ベクトルが隠れ状態よりも文の意味を効果的に捉えていることを示す,新しい視点を紹介する。
本稿では,複数の層にまたがるトークンの値とトークンのインデックスをプールするシンプルな手法であるValue Aggregation(VA)を提案する。
トレーニング不要の環境では、VAは他のLLMベースの埋め込みよりも優れており、アンサンブルベースのMetaEOLにマッチするか、超越している。
さらに,適切なプロンプトと組み合わせることで,重み付けされた値ベクトルとしてレイヤーアテンション出力を解釈できることが実証された。
具体的には、最後のトークン関数の注目スコアが重みとして機能し、出力投影行列(W_O$)はこれらの重み付き値ベクトルをLLM残差ストリームの共通空間と整列する。
この改良された手法はAligned Weighted VA (AlignedWVA) と呼ばれ、トレーニング不要なLCMベースの埋め込みにおいて最先端の性能を実現し、高コストのMetaEOLをかなりの差で上回っている。
最後に、微調整値アグリゲーションにより強力なLCM埋め込みモデルを得る可能性を強調した。
関連論文リスト
- Learning to Compress: Unlocking the Potential of Large Language Models for Text Representation [34.21806963402883]
大規模言語モデル(LLM)の教師なし適応のためのプレテキストタスクとして,文脈圧縮の未解決の可能性について検討する。
実験により、よく設計された圧縮目的がLLMベースのテキスト表現を大幅に強化できることが示されている。
コントラスト学習によるさらなる改善は、強い表現モデル(LLM2Comp)を生成する
論文 参考訳(メタデータ) (2025-11-21T10:45:44Z) - Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。
MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T15:38:42Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。