論文の概要: GEM: Empowering LLM for both Embedding Generation and Language Understanding
- arxiv url: http://arxiv.org/abs/2506.04344v1
- Date: Wed, 04 Jun 2025 18:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.360157
- Title: GEM: Empowering LLM for both Embedding Generation and Language Understanding
- Title(参考訳): GEM: 埋め込み生成と言語理解の両方にLLMを活用
- Authors: Caojin Zhang, Qiang Zhang, Ke Li, Sai Vidyaranya Nuthalapati, Benyu Zhang, Jason Liu, Serena Li, Lizhu Zhang, Xiangjun Fan,
- Abstract要約: 高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。
本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。
提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
- 参考スコア(独自算出の注目度): 11.081595808236239
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large decoder-only language models (LLMs) have achieved remarkable success in generation and reasoning tasks, where they generate text responses given instructions. However, many applications, e.g., retrieval augmented generation (RAG), still rely on separate embedding models to generate text embeddings, which can complicate the system and introduce discrepancies in understanding of the query between the embedding model and LLMs. To address this limitation, we propose a simple self-supervised approach, Generative Embedding large language Model (GEM), that enables any large decoder-only LLM to generate high-quality text embeddings while maintaining its original text generation and reasoning capabilities. Our method inserts new special token(s) into a text body, and generates summarization embedding of the text by manipulating the attention mask. This method could be easily integrated into post-training or fine tuning stages of any existing LLMs. We demonstrate the effectiveness of our approach by applying it to two popular LLM families, ranging from 1B to 8B parameters, and evaluating the transformed models on both text embedding benchmarks (MTEB) and NLP benchmarks (MMLU). The results show that our proposed method significantly improves the original LLMs on MTEB while having a minimal impact on MMLU. Our strong results indicate that our approach can empower LLMs with state-of-the-art text embedding capabilities while maintaining their original NLP performance
- Abstract(参考訳): 大規模デコーダのみの言語モデル(LLM)は、与えられた命令に対するテキスト応答を生成する生成および推論タスクにおいて顕著な成功を収めている。
しかし、多くのアプリケーション(例えば、検索拡張生成(RAG))は、いまだに別の埋め込みモデルを使ってテキスト埋め込みを生成する。
この制限に対処するために、我々は、大規模デコーダのみのLLMが、オリジナルのテキスト生成と推論機能を維持しながら高品質なテキスト埋め込みを生成できる、シンプルな自己教師付きアプローチ、GEM(Generative Embedding large Language Model)を提案する。
本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。
この方法は、既存のLLMの訓練後または微調整段階に容易に組み込むことができる。
提案手法の有効性を,テキスト埋め込みベンチマーク (MTEB) とNLPベンチマーク (MMLU) の両ベンチマークで評価した。
その結果,提案手法はMMLUへの影響を最小限に抑えつつ,MTEB上でのLLMを著しく改善することがわかった。
我々の強い結果は、我々のアプローチが、元のNLP性能を維持しつつ、最先端のテキスト埋め込み機能でLCMを強化できることを示唆している。
関連論文リスト
- Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.041894045506043]
より広範なアプリケーションに対して、強力なパフォーマンスとポテンシャルを示す4つの方法とモデルに焦点を当てます。
これには多様性の表現性の向上、出力品質の向上、アプリケーションの柔軟性の向上などが含まれる。
論文 参考訳(メタデータ) (2025-03-13T18:50:57Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。