Fugu-MT 論文翻訳(概要): LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

論文の概要: LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

arxiv url: http://arxiv.org/abs/2404.05961v1
Date: Tue, 9 Apr 2024 02:51:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 16:08:32.976831
Title: LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
Title（参考訳）: LLM2Vec:大規模言語モデルは秘密裏に強力なテキストエンコーダ
Authors: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy,
Abstract要約: 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
参考スコア（独自算出の注目度）: 34.421335513040795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In this work, we introduce LLM2Vec, a simple unsupervised approach that can transform any decoder-only LLM into a strong text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional attention, 2) masked next token prediction, and 3) unsupervised contrastive learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3 popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed models on English word- and sequence-level tasks. We outperform encoder-only models by a large margin on word-level tasks and reach a new unsupervised state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB). Moreover, when combining LLM2Vec with supervised contrastive learning, we achieve state-of-the-art performance on MTEB among models that train only on publicly available data. Our strong empirical results and extensive analysis demonstrate that LLMs can be effectively transformed into universal text encoders in a parameter-efficient manner without the need for expensive adaptation or synthetic GPT-4 generated data.
Abstract（参考訳）: 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。しかし、コミュニティは、リッチなコンテキスト化表現を必要とするテキスト埋め込みタスクに対して、これらのモデルを徐々に採用しているだけである。本研究では,デコーダのみのLLMを強力なテキストエンコーダに変換する,シンプルな教師なしアプローチであるLLM2Vecを紹介する。 LLM2Vecは3つの単純なステップから構成される。 1)双方向の注意を喚起する。 2)次のトークン予測を隠蔽し、 3)教師なしコントラスト学習。我々は、LLM2Vecの有効性を、1.3Bから7Bまでの3つのLLMに適用し、英語の単語レベルとシーケンスレベルのタスクの変換モデルを評価する。我々は,単語レベルのタスクにおいて,エンコーダのみのモデルよりも優れた性能を示し,MTEB(Massive Text Embeddings Benchmark)の非教師なしのパフォーマンスを達成した。さらに,LLM2Vecと教師付きコントラスト学習を組み合わせることで,公開データのみをトレーニングするモデル間でMTEBの最先端性能を実現する。我々の強力な実験結果と広範囲な分析により、LPMは高価な適応や合成GPT-4生成データを必要とせずに、パラメータ効率の良い方法で、効果的にユニバーサルテキストエンコーダに変換できることを示した。

関連論文リスト

Causal2Vec: Improving Decoder-only LLMs as Versatile Embedding Models [3.8688081072587326]
Causal2Vecはデコーダのみの大規模言語モデルの性能を高めるために設計された汎用埋め込みモデルである。まず、入力テキストを単一のコンテキストトークンにプリエンコードするために、軽量のBERTスタイルのモデルを使用します。最後に,最後のテキスト埋め込みとしてコンテキストトークンとEOSトークンの隠れ状態を導入した。
論文参考訳（メタデータ） (2025-07-31T10:01:11Z)
GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文参考訳（メタデータ） (2025-06-04T18:02:07Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
Advancing Single- and Multi-task Text Classification through Large Language Model Fine-tuning [29.782832197148487]
大規模言語モデル(LLM)はテキスト分類タスクに広く使われている。本研究は様々なモデルと手法を用いており、サイズやアーキテクチャは様々であり、微調整と事前訓練の両方のアプローチを含んでいる。まず,20のニュースグループ(20NG)とデータセット上でのLLMの性能を評価し,エンコーダのみのRoBERTaモデルと比較した。目的検出やスロットフィリングを含む複数の分類タスクを,両方のデータセットからのデータを用いて単一のモデルに組み合わせることで,両モデルのマルチタスク機能について検討した。
論文参考訳（メタデータ） (2024-12-11T18:06:44Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。 SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。 LLMの能力をフル活用するための新しいフレームワークを提案する。さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文参考訳（メタデータ） (2024-06-17T17:59:43Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。