論文の概要: Training LLMs to be Better Text Embedders through Bidirectional Reconstruction
- arxiv url: http://arxiv.org/abs/2509.03020v3
- Date: Tue, 09 Sep 2025 07:39:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.795952
- Title: Training LLMs to be Better Text Embedders through Bidirectional Reconstruction
- Title(参考訳): 双方向再構築によるテキスト組込み機としてのLCMの訓練
- Authors: Chang Su, Dengliang Shi, Siyuan Huang, Jintao Du, Changhua Meng, Yu Cheng, Weiqiang Wang, Zhouhan Lin,
- Abstract要約: コントラスト学習の前に新たなトレーニングステージを追加して,最終トークン埋め込みのセマンティクスを強化することを提案する。
このステージでは、EBQ2D (Embedding-based Query-to-Document) と EBD2Q (Embedding-based Document-to-Query) という双方向の生成的再構築タスクを採用している。
- 参考スコア(独自算出の注目度): 37.53732954585151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have increasingly been explored as powerful text embedders. Existing LLM-based text embedding approaches often leverage the embedding of the final token, typically a reserved special token such as [EOS]. However, these tokens have not been intentionally trained to capture the semantics of the whole context, limiting their capacity as text embeddings, especially for retrieval and re-ranking tasks. We propose to add a new training stage before contrastive learning to enrich the semantics of the final token embedding. This stage employs bidirectional generative reconstruction tasks, namely EBQ2D (Embedding-Based Query-to-Document) and EBD2Q (Embedding-Based Document-to-Query), which interleave to anchor the [EOS] embedding and reconstruct either side of Query-Document pairs. Experimental results demonstrate that our additional training stage significantly improves LLM performance on the Massive Text Embedding Benchmark (MTEB), achieving new state-of-the-art results across different LLM base models and scales.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力なテキスト埋め込み器としてますます研究されている。
既存のLLMベースのテキスト埋め込みアプローチは、通常[EOS]のような予約された特別なトークンである最終トークンの埋め込みを利用する。
しかしながら、これらのトークンは、コンテキスト全体のセマンティクスをキャプチャするために意図的に訓練されておらず、特に検索と再ランクタスクのために、テキスト埋め込みとしての能力を制限する。
コントラスト学習の前に新たなトレーニングステージを追加して,最終トークン埋め込みのセマンティクスを強化することを提案する。
このステージでは、EBQ2D (Embedding-based Query-to-Document) と EBD2Q (Embedding-based Document-to-Query) という双方向の生成的再構築タスクが採用されている。
実験結果から, MTEB (Massive Text Embedding Benchmark) のLLM性能は, 異なるLLMベースモデルとスケールにまたがって向上することが示された。
関連論文リスト
- Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [3.8688081072587326]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。
まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。
最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文 参考訳(メタデータ) (2025-07-31T10:01:11Z) - GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。
本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。
提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T18:02:07Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective [40.29094043868067]
本稿では,長期文書検索においてLLMベースの埋め込みモデルよりも20%優れる拡散言語埋め込みモデルについて,最初の体系的研究を行う。
我々の分析は、双方向の注意が、長く複雑なテキストでグローバルなコンテキストを符号化するのに重要であることを検証している。
論文 参考訳(メタデータ) (2025-05-21T02:59:14Z) - Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - Enhancing Lexicon-Based Text Embeddings with Large Language Models [19.91595650613768]
近年の大規模言語モデル (LLM) は汎用テキスト埋め込みタスクにおいて例外的な性能を示した。
LENSはトークン埋め込みクラスタリングを通じて語彙空間を集約し、双方向の注意と様々なプール戦略を研究する。
LENS は MTEB (Massive Text Embedding Benchmark) 上での高密度埋め込みよりも優れている
論文 参考訳(メタデータ) (2025-01-16T18:57:20Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。