論文の概要: Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
- arxiv url: http://arxiv.org/abs/2511.07025v1
- Date: Mon, 10 Nov 2025 12:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.235527
- Title: Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
- Title(参考訳): Llama-Embed-Nemotron-8B:多言語・多言語タスクのためのユニバーサルテキスト埋め込みモデル
- Authors: Yauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge,
- Abstract要約: llama-embed-nemotron-8bはオープンウェイトテキスト埋め込みモデルである。
これはMultilingual Massive Text Embedding Benchmarkで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 4.739000717606982
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce llama-embed-nemotron-8b, an open-weights text embedding model that achieves state-of-the-art performance on the Multilingual Massive Text Embedding Benchmark (MMTEB) leaderboard as of October 21, 2025. While recent models show strong performance, their training data or methodologies are often not fully disclosed. We aim to address this by developing a fully open-source model, publicly releasing its weights and detailed ablation studies, and planning to share the curated training datasets. Our model demonstrates superior performance across all major embedding tasks -- including retrieval, classification and semantic textual similarity (STS) -- and excels in challenging multilingual scenarios, such as low-resource languages and cross-lingual setups. This state-of-the-art performance is driven by a novel data mix of 16.1 million query-document pairs, split between 7.7 million samples from public datasets and 8.4 million synthetically generated examples from various open-weight LLMs. One of our key contributions is a detailed ablation study analyzing core design choices, including a comparison of contrastive loss implementations, an evaluation of synthetic data generation (SDG) strategies, and the impact of model merging. The llama-embed-nemotron-8b is an instruction-aware model, supporting user-defined instructions to enhance performance for specific use-cases. This combination of top-tier performance, broad applicability, and user-driven flexibility enables it to serve as a universal text embedding solution.
- Abstract(参考訳): 2025年10月21日、MMTEB(Multilingual Massive Text Embedding Benchmark)のリーダーボード上で、最先端のパフォーマンスを実現するオープンウェイトテキスト埋め込みモデルであるllama-embed-nemotron-8bを紹介した。
最近のモデルでは高いパフォーマンスを示しているが、トレーニングデータや方法論が完全には公開されていないことが多い。
我々は、完全にオープンソースなモデルを開発し、そのウェイトと詳細なアブレーション研究を公開し、キュレートされたトレーニングデータセットを共有する計画を立てることで、この問題に対処することを目指している。
我々のモデルは、検索、分類、セマンティックテキスト類似性(STS)を含む全ての主要な埋め込みタスクにおいて優れた性能を示し、低リソース言語や言語間設定のような挑戦的な多言語シナリオに優れています。
この最先端のパフォーマンスは、公開データセットから770万のサンプルと、さまざまなオープンウェイトLLMから合成生成された840万のサンプルを分割した1610万のクエリドキュメントペアからなる、新しいデータミックスによって駆動される。
私たちの重要な貢献の1つは、コントラストロス実装の比較、合成データ生成(SDG)戦略の評価、モデルマージの影響など、コア設計選択を詳細に分析することである。
llama-embed-nemotron-8bは命令認識モデルであり、特定のユースケースのパフォーマンスを向上させるためにユーザ定義の命令をサポートする。
トップレベルのパフォーマンス、広範な適用性、ユーザ主導の柔軟性の組み合わせによって、汎用的なテキスト埋め込みソリューションとして機能することができる。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。