論文の概要: Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models
- arxiv url: http://arxiv.org/abs/2507.23386v1
- Date: Thu, 31 Jul 2025 10:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.50588
- Title: Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models
- Title(参考訳): Causal2Vec: Versatile Embedding ModelとしてデコーダのみのLLMを改善する
- Authors: Ailiang Lin, Zhuoyun Li, Kotaro Funakoshi,
- Abstract要約: Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。
まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。
最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
- 参考スコア(独自算出の注目度): 3.8688081072587326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoder-only large language models (LLMs) are increasingly used to build embedding models that effectively encode the semantic information of natural language texts into dense vector representations for various embedding tasks. However, many existing methods primarily focus on removing the causal attention mask in LLMs to enable bidirectional attention, potentially undermining the model's ability to extract semantic information acquired during pretraining. Additionally, leading unidirectional approaches often rely on extra input text to overcome the inherent limitations of causal attention, inevitably increasing computational costs. In this work, we propose Causal2Vec, a general-purpose embedding model tailored to enhance the performance of decoder-only LLMs without altering their original architectures or introducing significant computational overhead. Specifically, we first employ a lightweight BERT-style model to pre-encode the input text into a single Contextual token, which is then prepended to the LLM's input sequence, allowing each token to capture contextualized information even without attending to future tokens. Furthermore, to mitigate the recency bias introduced by last-token pooling and help LLMs better leverage the semantic information encoded in the Contextual token, we concatenate the last hidden states of Contextual and EOS tokens as the final text embedding. In practice, Causal2Vec achieves state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB) among models trained solely on publicly available retrieval datasets, while reducing the required sequence length by up to 85% and inference time by up to 82% compared to best-performing methods.
- Abstract(参考訳): デコーダのみの大規模言語モデル(LLM)は、自然言語テキストのセマンティック情報を様々な埋め込みタスクのための密度の高いベクトル表現に効果的にエンコードする埋め込みモデルを構築するために、ますます使われている。
しかし、既存の多くの手法は、主にLLMの因果注意マスクを除去して双方向の注意を可能にすることに重点を置いており、事前訓練中に取得した意味情報を抽出する能力を損なう可能性がある。
さらに、一方向をリードするアプローチは、因果的注意の固有の制限を克服するため、必然的に計算コストを増大させるために、余分な入力テキストに依存することが多い。
本研究では,デコーダのみのLLMの性能向上を目的とした汎用埋め込みモデルCausal2Vecを提案する。
具体的には、まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。
さらに,LLMがコンテキストトークンに符号化されたセマンティック情報をうまく活用するために,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの最後の隠れ状態を結合する。
実際にCausal2Vecは、公開されている検索データセットのみに基づいてトレーニングされたモデルのうち、MTEB(Massive Text Embeddings Benchmark)の最先端のパフォーマンスを達成し、必要なシーケンス長を最大85%削減し、最高のパフォーマンス手法と比較して推論時間を最大82%短縮する。
関連論文リスト
- GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。
本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。
提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T18:02:07Z) - Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective [40.29094043868067]
本稿では,長期文書検索においてLLMベースの埋め込みモデルよりも20%優れる拡散言語埋め込みモデルについて,最初の体系的研究を行う。
我々の分析は、双方向の注意が、長く複雑なテキストでグローバルなコンテキストを符号化するのに重要であることを検証している。
論文 参考訳(メタデータ) (2025-05-21T02:59:14Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Repetition Improves Language Model Embeddings [68.92976440181387]
本稿では,2回入力を繰り返して,2回目以降の埋め込みを抽出する「echo Embeddings」を提案する。
MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。
論文 参考訳(メタデータ) (2024-02-23T17:25:10Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。