論文の概要: Arctic-Embed 2.0: Multilingual Retrieval Without Compromise
- arxiv url: http://arxiv.org/abs/2412.04506v2
- Date: Sat, 14 Dec 2024 00:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:02.609711
- Title: Arctic-Embed 2.0: Multilingual Retrieval Without Compromise
- Title(参考訳): Arctic-Embed 2.0: 妥協のない多言語検索
- Authors: Puxuan Yu, Luke Merrick, Gaurav Nuti, Daniel Campos,
- Abstract要約: Arctic-Embed 2.0はオープンソースのテキスト埋め込みモデルである。
多言語と英語のみのベンチマークで競争力のある検索品質を提供する。
効率的な埋め込みストレージのためのMatryoshka Representation Learning(MRL)をサポートする。
- 参考スコア(独自算出の注目度): 7.509364771727714
- License:
- Abstract: This paper presents the training methodology of Arctic-Embed 2.0, a set of open-source text embedding models built for accurate and efficient multilingual retrieval. While prior works have suffered from degraded English retrieval quality, Arctic-Embed 2.0 delivers competitive retrieval quality on multilingual and English-only benchmarks, and supports Matryoshka Representation Learning (MRL) for efficient embedding storage with significantly lower compressed quality degradation compared to alternatives. We detail the design and implementation, presenting several important open research questions that arose during model development. We conduct experiments exploring these research questions and include extensive discussion aimed at fostering further discussion in this field.
- Abstract(参考訳): 本稿では,高精度かつ効率的な多言語検索のために構築されたオープンソースのテキスト埋め込みモデルであるArctic-Embed 2.0のトレーニング手法を提案する。
以前の研究は英語検索の品質の低下に悩まされてきたが、Arctic-Embed 2.0は多言語と英語のみのベンチマークで競争力のある検索品質を提供し、Matryoshka Representation Learning (MRL)をサポートし、効率よく埋め込みストレージをサポートし、代替品に比べて圧縮品質が大幅に低下した。
設計と実装について詳述し、モデル開発中に起こったいくつかの重要なオープンな研究課題を提示する。
我々はこれらの研究課題を探求する実験を行い、この分野におけるさらなる議論を促進することを目的とした広範な議論を含む。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment [13.997006139875563]
低リソース言語における言語間単語表現は、特に現在のモデルにおける高リソース言語における単語表現と一致していない。
そこで本研究では,既製の単語アライメントモデルを用いて,英語と低リソース言語8言語間の単語アライメントを明確にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:58:53Z) - Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文 参考訳(メタデータ) (2022-06-30T09:49:53Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval [4.4973334555746]
低リソース言語(LRL)における解答に対する既存の解答法は、英語に大きく遅れた。
文書検索を回避し、英語から低リソース言語への知識の確実に転送する、より現実的なタスクセットアップを利用可能なリソースに策定します。
このタスク設定内では、リランク付き英語学習セットに対する意味的類似性検索に類似した、Reranked Maximal Internal Product Search (RM-MIPS)を提案する。
論文 参考訳(メタデータ) (2020-12-28T04:38:45Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。