論文の概要: LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
- arxiv url: http://arxiv.org/abs/2404.05961v1
- Date: Tue, 9 Apr 2024 02:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 16:08:32.976831
- Title: LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
- Title(参考訳): LLM2Vec:大規模言語モデルは秘密裏に強力なテキストエンコーダ
- Authors: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy,
- Abstract要約: 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
- 参考スコア(独自算出の注目度): 34.421335513040795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In this work, we introduce LLM2Vec, a simple unsupervised approach that can transform any decoder-only LLM into a strong text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional attention, 2) masked next token prediction, and 3) unsupervised contrastive learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3 popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed models on English word- and sequence-level tasks. We outperform encoder-only models by a large margin on word-level tasks and reach a new unsupervised state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB). Moreover, when combining LLM2Vec with supervised contrastive learning, we achieve state-of-the-art performance on MTEB among models that train only on publicly available data. Our strong empirical results and extensive analysis demonstrate that LLMs can be effectively transformed into universal text encoders in a parameter-efficient manner without the need for expensive adaptation or synthetic GPT-4 generated data.
- Abstract(参考訳): 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
しかし、コミュニティは、リッチなコンテキスト化表現を必要とするテキスト埋め込みタスクに対して、これらのモデルを徐々に採用しているだけである。
本研究では,デコーダのみのLLMを強力なテキストエンコーダに変換する,シンプルな教師なしアプローチであるLLM2Vecを紹介する。
LLM2Vecは3つの単純なステップから構成される。
1)双方向の注意を喚起する。
2)次のトークン予測を隠蔽し、
3)教師なしコントラスト学習。
我々は、LLM2Vecの有効性を、1.3Bから7Bまでの3つのLLMに適用し、英語の単語レベルとシーケンスレベルのタスクの変換モデルを評価する。
我々は,単語レベルのタスクにおいて,エンコーダのみのモデルよりも優れた性能を示し,MTEB(Massive Text Embeddings Benchmark)の非教師なしのパフォーマンスを達成した。
さらに,LLM2Vecと教師付きコントラスト学習を組み合わせることで,公開データのみをトレーニングするモデル間でMTEBの最先端性能を実現する。
我々の強力な実験結果と広範囲な分析により、LPMは高価な適応や合成GPT-4生成データを必要とせずに、パラメータ効率の良い方法で、効果的にユニバーサルテキストエンコーダに変換できることを示した。
関連論文リスト
- Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Tuning Large language model for End-to-end Speech Translation [7.297914077124909]
本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。
MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
論文 参考訳(メタデータ) (2023-10-03T13:43:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。