論文の概要: Translate-Distill: Learning Cross-Language Dense Retrieval by
Translation and Distillation
- arxiv url: http://arxiv.org/abs/2401.04810v1
- Date: Tue, 9 Jan 2024 20:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 16:08:01.750334
- Title: Translate-Distill: Learning Cross-Language Dense Retrieval by
Translation and Distillation
- Title(参考訳): translate-distill:翻訳と蒸留による言語間密検索の学習
- Authors: Eugene Yang and Dawn Lawrie and James Mayfield and Douglas W. Oard and
Scott Miller
- Abstract要約: 本稿では,モノリンガルのクロスエンコーダとCLIRのクロスエンコーダのどちらかから知識を蒸留して,デュアルエンコーダCLIRの学生モデルを訓練するTranslate-Distillを提案する。
このよりリッチなデザインスペースにより、教師モデルは、CLIRのために学生モデルを直接トレーニングしながら、最適化された設定で推論を実行できるようになる。
- 参考スコア(独自算出の注目度): 17.211592060717713
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prior work on English monolingual retrieval has shown that a cross-encoder
trained using a large number of relevance judgments for query-document pairs
can be used as a teacher to train more efficient, but similarly effective,
dual-encoder student models. Applying a similar knowledge distillation approach
to training an efficient dual-encoder model for Cross-Language Information
Retrieval (CLIR), where queries and documents are in different languages, is
challenging due to the lack of a sufficiently large training collection when
the query and document languages differ. The state of the art for CLIR thus
relies on translating queries, documents, or both from the large English MS
MARCO training set, an approach called Translate-Train. This paper proposes an
alternative, Translate-Distill, in which knowledge distillation from either a
monolingual cross-encoder or a CLIR cross-encoder is used to train a
dual-encoder CLIR student model. This richer design space enables the teacher
model to perform inference in an optimized setting, while training the student
model directly for CLIR. Trained models and artifacts are publicly available on
Huggingface.
- Abstract(参考訳): 英語単言語検索の以前の研究は、クエリ文書ペアの関連判断を多用して訓練されたクロスエンコーダが教師として使用でき、より効率的だが、同様に効果的に二重エンコーダの学生モデルを学ぶことができることを示した。
クロスランゲージ情報検索(CLIR)では,クエリとドキュメントが異なる言語で,クエリとドキュメント言語が異なる場合に十分な量のトレーニングコレクションが存在しないため,類似の知識蒸留アプローチを用いて,効率的な二重エンコーダモデルを訓練することが困難である。
したがって、CLIRの最先端技術は、クエリやドキュメントの翻訳、あるいは大きな英語のMS MARCOトレーニングセット(Translate-Trainと呼ばれるアプローチ)の両方に依存している。
本稿では,モノリンガルのクロスエンコーダとCLIRのクロスエンコーダのどちらかから知識を蒸留して,デュアルエンコーダのCLIR学生モデルを訓練するTranslate-Distillを提案する。
このよりリッチなデザインスペースにより、教師モデルはCLIRを直接トレーニングしながら、最適化された設定で推論を実行できるようになる。
トレーニングされたモデルとアーティファクトは、Huggingfaceで公開されている。
関連論文リスト
- Distillation for Multilingual Information Retrieval [10.223578525761617]
Translate-Distillフレームワークは翻訳と蒸留を用いて言語間ニューラルデュアルエンコーダモデルを訓練する。
本研究はTranslate-Distillを拡張し,多言語情報検索のためのTranslate-Distill (MTD)を提案する。
MTDで訓練したColBERT-Xモデルは、訓練したith Multilingual Translate-Trainよりも、nDCG@20で5%から25%、MAPで15%から45%優れていた。
論文 参考訳(メタデータ) (2024-05-02T03:30:03Z) - Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval [57.98555925471121]
言語間のクロスモーダル検索が注目を集めている。
ほとんどのCCR手法は、機械翻訳を通して擬似並列視覚言語コーパスを構成する。
本稿では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
論文 参考訳(メタデータ) (2023-09-11T13:44:46Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Transfer Learning Approaches for Building Cross-Language Dense Retrieval
Models [25.150140840908257]
ColBERT-Xは、言語間の情報検索をサポートするために、ColBERT多表現密度検索モデルの一般化である。
ゼロショットトレーニングでは、XLM-Rエンコーダを使って英語MS MARCOコレクションをトレーニングする。
翻訳訓練では、MS MARCOの英語クエリと関連するMS MARCOの機械翻訳を併用して訓練を行う。
論文 参考訳(メタデータ) (2022-01-20T22:11:38Z) - Learning Cross-Lingual IR from an English Retriever [10.27108918912692]
提案手法の精度は25.4 Recall@5ktである。
論文 参考訳(メタデータ) (2021-12-15T15:07:54Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。