Fugu-MT 論文翻訳(概要): NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

論文の概要: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

arxiv url: http://arxiv.org/abs/2405.17428v3
Date: Tue, 25 Feb 2025 00:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:44.13092
Title: NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models
Title（参考訳）: NV-Embed:ジェネリスト埋め込みモデルとしてのLCMの訓練技術の改善
Authors: Chankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping,
Abstract要約: 我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
参考スコア（独自算出の注目度）: 38.41524186248607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decoder-only LLM-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce NV-Embed, incorporating architectural designs, training procedures, and curated datasets to significantly enhance the performance of LLM as a versatile embedding model, while maintaining its simplicity and reproducibility. For model architecture, we propose a latent attention layer to obtain pooled embeddings, which consistently improves retrieval and downstream task accuracy compared to mean pooling or using the last <EOS> token embedding from LLMs. To enhance representation learning, we remove the causal attention mask of LLMs during contrastive training. For training algorithm, we introduce a two-stage contrastive instruction-tuning method. It first applies contrastive training with instructions on retrieval datasets, utilizing in-batch negatives and curated hard negative examples. At stage-2, it blends various non-retrieval into instruction tuning, which not only enhances non-retrieval task accuracy but also improves retrieval performance. For training data, we utilize the hard-negative mining, synthetic data generation and existing public available datasets to boost the performance of embedding model. By combining these techniques, our NV-Embed-v1 and NV-Embed-v2 models obtained the No.1 position on the MTEB leaderboard (as of May 24 and August 30, 2024, respectively) across 56 tasks, demonstrating the sustained effectiveness of the proposed methods over time. It also achieved the highest scores in the Long Doc section and the second-highest scores in the QA section of the AIR Benchmark, which covers a range of out-of-domain information retrieval topics beyond those in MTEB. We further provide the analysis of model compression techniques for generalist embedding models.
Abstract（参考訳）: デコーダのみのLLMベースの埋め込みモデルは、高密度ベクトルベースの検索を含む汎用テキスト埋め込みタスクにおいてBERTやT5ベースの埋め込みモデルよりも優れ始めています。本研究では,NV-Embedを導入し,アーキテクチャ設計,トレーニング手順,キュレートされたデータセットを導入し,簡便さと再現性を維持しつつ,汎用的な埋め込みモデルとしてのLLMの性能を大幅に向上させる。モデルアーキテクチャでは,LLMからの最後の<EOS>トークンを埋め込んだ場合と比較して,検索および下流タスクの精度を一貫して向上する,プール埋め込みを得るための潜在注意層を提案する。表現学習の強化を目的として, コントラストトレーニングにおいて, LLMの因果注意マスクを除去する。学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。まず、検索データセットの命令による対照的なトレーニングを適用し、バッチ内陰性とキュレートされたハードネガティブな例を利用する。ステージ2では、様々な非検索タスクを命令チューニングにブレンドし、非検索タスクの精度を向上するだけでなく、検索性能も向上する。トレーニングデータには, 埋込みモデルの性能向上のために, 強負のマイニング, 合成データ生成, 既存の公開データセットを利用する。これらの手法を組み合わせることで,NV-Embed-v1 と NV-Embed-v2 は MTEB のリーダーボード(2024年5月24日と8月30日)において56のタスクで第1位を獲得し,提案手法の持続的有効性を示した。また、Long Docセクションで最高スコアとAIR BenchmarkのQAセクションで2番目に高いスコアを達成し、MTEB以外のドメイン外の情報検索トピックをカバーした。さらに,一般埋め込みモデルに対するモデル圧縮手法の解析を行う。

関連論文リスト

Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文参考訳（メタデータ） (2026-02-05T15:45:08Z)
Fine-Tuning Causal LLMs for Text Classification: Embedding-Based vs. Instruction-Based Approaches [0.0]
我々は、リソース制約下での下流テキスト分類のためのLLM(Large Language Models)を微調整する戦略について検討する。 1)事前訓練した因果LLMに分類ヘッドをアタッチしてタスクを微調整し,(2)分類のためのプロンプト>応答形式でLSMを指導する,という2つの手法を検討した。
論文参考訳（メタデータ） (2025-12-14T13:02:06Z)
QZhou-Embedding Technical Report [16.213081669689185]
Qwen2.5-7B-Instructファンデーションモデルに基づいて、特殊なデータ変換とトレーニング戦略を含む統合マルチタスクフレームワークを設計した。以上の結果から,検索モデルの性能向上には,高品質で多様なデータが不可欠であることが示唆された。
論文参考訳（メタデータ） (2025-08-29T13:47:22Z)
SynthCoder: A Synthetical Strategy to Tune LLMs for Code Completion [7.668823606571788]
コード補完は、ソフトウェア工学における大規模言語モデル(LLM)の顕著な応用である。本稿では,Fill-in-the-Middle(FIM)コード補完タスクにおける最先端技術を実現するために,業界をリードするプラクティスを統合するモデルであるSynthCoderを提案する。
論文参考訳（メタデータ） (2025-08-21T12:23:49Z)
KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [63.13906424204078]
本稿では, 汎用的でコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。モデルアーキテクチャでは、0.5Bのコンパクトなサイズでモデルを実装し、固定長の埋め込みを生成する。トレーニングデータでは, プレトレーニング用20種, 微調整用100種, コントラスト蒸留用100種をキュレートする。
論文参考訳（メタデータ） (2025-06-26T01:09:44Z)
Beyond QA Pairs: Assessing Parameter-Efficient Fine-Tuning for Fact Embedding in LLMs [0.0]
本稿では,質問応答対をFactualクラスとConceptualクラスに分類することで,微調整プロセスの改善に焦点をあてる。 2つの異なるLlama-2モデルはこれらの分類に基づいて微調整され、GPT-3.5 TurboやGeminiのような大型モデルを用いて評価される。以上の結果から,概念データセットでトレーニングされたモデルは,実データセットでトレーニングしたモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-03T03:26:30Z)
Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation [8.013158752919722]
大規模言語モデル(LLM)訓練の最近の進歩は、多種多様な高品質な命令データの必要性を強調している。データ生成のためのモデルを具体的に訓練する方法を検討することにより、 textbfNOMAD というパラダイムシフトを提案する。
論文参考訳（メタデータ） (2024-10-27T07:38:39Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
Is Tokenization Needed for Masked Particle Modelling? [8.79008927474707]
Masked Particle Modeling (MPM) は、無順序集合の表現表現を構築するための自己教師付き学習スキームである。実装における非効率に対処し、より強力なデコーダを組み込むことにより、MPMを改善する。これらの新しい手法は、ジェットの基礎モデルのための新しいテストベッドにおいて、オリジナルのMPMからのトークン化学習目標よりも優れていることを示す。
論文参考訳（メタデータ） (2024-09-19T09:12:29Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? [18.990655668481075]
我々は,最後の層だけでなく,すべての隠蔽層の出力を横断的ネットワークを用いて変換する,新しいプーリング戦略であるMulti-Layers Trainable Poolingを提案する。本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について述べる。
論文参考訳（メタデータ） (2024-09-04T14:01:48Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文参考訳（メタデータ） (2023-01-31T07:31:34Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。