論文の概要: jina-embeddings-v5-text: Task-Targeted Embedding Distillation
- arxiv url: http://arxiv.org/abs/2602.15547v1
- Date: Tue, 17 Feb 2026 12:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.066299
- Title: jina-embeddings-v5-text: Task-Targeted Embedding Distillation
- Title(参考訳): jina-embeddings-v5-text: Task-Targeted Embedding Distillation
- Authors: Mohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao,
- Abstract要約: 汎用モデルは典型的には、対照的な損失関数を用いて単一または多段階のプロセスで訓練される。
本稿では, モデル蒸留技術とタスク特異的なコントラスト損失を併用して, コンパクトな埋め込みモデルを生成する新しいトレーニング手法を提案する。
結果のモデルのベンチマークスコアは、同じサイズのモデルの最先端モデルを上回るか、一致します。
- 参考スコア(独自算出の注目度): 4.215793601372204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.
- Abstract(参考訳): テキスト埋め込みモデルは、情報検索、クラスタリング、分類を含む意味的類似性タスクに広く利用されている。
汎用モデルは典型的には、対照的な損失関数を用いて単一または多段階のプロセスで訓練される。
本稿では, モデル蒸留技術とタスク固有のコントラスト損失を併用して, コンパクトで高性能な埋め込みモデルを生成する新しいトレーニング手法を提案する。
以上の結果から, 本手法は, 純粋にコントラストや蒸留に基づく訓練パラダイムよりも, 小型モデルの訓練に有効であることが示唆された。
結果のモデルのベンチマークスコア、jina-embeddings-v5-text-smallとjina-embeddings-v5-text-nanoは、同様のサイズのモデルの最先端モデルを上回るか、一致する。
jina-embeddings-v5-textモデルは、多くの言語で長いテキスト(最大32kトークン)もサポートし、トラルニケーションやバイナリ量子化の下で堅牢な埋め込みを生成する。
モデルウェイトは公開されており、モデル開発のさらなる進歩を願っている。
関連論文リスト
- Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。
モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。
学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。
スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。
複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文 参考訳(メタデータ) (2023-04-25T09:23:43Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。