論文の概要: jina-embeddings-v3: Multilingual Embeddings With Task LoRA
- arxiv url: http://arxiv.org/abs/2409.10173v1
- Date: Mon, 16 Sep 2024 11:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:50:18.728631
- Title: jina-embeddings-v3: Multilingual Embeddings With Task LoRA
- Title(参考訳): jina-embeddings-v3: Task LoRAによる多言語埋め込み
- Authors: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao,
- Abstract要約: jina-embeddings-v3は5億7000万のパラメータを持つ新しいテキスト埋め込みモデルである。
多言語データと長文検索タスクで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.745404123824168
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.
- Abstract(参考訳): 5億7000万のパラメータを持つ新しいテキスト埋め込みモデルであるjina-embeddings-v3を導入する。
このモデルは、クエリ文書検索、クラスタリング、分類、テキストマッチングのための高品質な埋め込みを生成するために、タスク固有のローランク適応(LoRA)アダプタのセットを含んでいる。
さらに、Matryoshka Representation Learningはトレーニングプロセスに統合され、パフォーマンスを損なうことなく埋め込み次元を柔軟に切り離すことができる。
MTEBベンチマークの評価によると、jina-embeddings-v3は、OpenAIとCohereの英語タスクへの最新のプロプライエタリな埋め込みよりも優れており、マルチリンガル-e5-大規模命令よりも優れたパフォーマンスを実現している。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings [22.71166607645311]
本稿では,最先端のバイリンガルテキスト埋め込みモデルについて紹介する。
これらのモデルは、最大8192トークンで長いテキスト入力を処理することができる。
STSタスクのモデル性能を大幅に改善しました。
我々は、ドイツ語とスペイン語の埋め込みモデルのベンチマークを含むように、Massive Text Embedding Benchmarkを拡張した。
論文 参考訳(メタデータ) (2024-02-26T20:53:12Z) - Fine-tuning Large Language Models for Multigenerator, Multidomain, and
Multilingual Machine-Generated Text Detection [3.6433784431752434]
SemEval-2024 Task 8は、多種多様な大言語モデル(LLM)から機械生成テキストを特定するという課題を導入する
タスクは3つのサブタスクから構成される: 単言語および多言語におけるバイナリ分類(Subtask A)、多クラス分類(Subtask B)、混合テキスト検出(Subtask C)。
論文 参考訳(メタデータ) (2024-01-22T19:39:05Z) - Multi-Task Learning for Front-End Text Processing in TTS [15.62497569424995]
テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
論文 参考訳(メタデータ) (2024-01-12T02:13:21Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。