論文の概要: Multilingual ColBERT-X
- arxiv url: http://arxiv.org/abs/2209.01335v1
- Date: Sat, 3 Sep 2022 06:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:25:27.738924
- Title: Multilingual ColBERT-X
- Title(参考訳): 多言語ColBERT-X
- Authors: Dawn Lawrie and Eugene Yang and Douglas W. Oard and James Mayfield
- Abstract要約: ColBERT-Xはクロスランゲージ情報検索(CLIR)のための高密度検索モデルである
CLIRでは、ドキュメントは1つの自然言語で書かれ、クエリは別の自然言語で表現される。
関連するタスクは多言語IR(MLIR)であり、システムは複数の言語で書かれた文書の単一のランクリストを作成する。
- 参考スコア(独自算出の注目度): 11.768656900939048
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: ColBERT-X is a dense retrieval model for Cross Language Information Retrieval
(CLIR). In CLIR, documents are written in one natural language, while the
queries are expressed in another. A related task is multilingual IR (MLIR)
where the system creates a single ranked list of documents written in many
languages. Given that ColBERT-X relies on a pretrained multilingual neural
language model to rank documents, a multilingual training procedure can enable
a version of ColBERT-X well-suited for MLIR. This paper describes that training
procedure. An important factor for good MLIR ranking is fine-tuning XLM-R using
mixed-language batches, where the same query is matched with documents in
different languages in the same batch. Neural machine translations of MS MARCO
passages are used to fine-tune the model.
- Abstract(参考訳): ColBERT-XはCross Language Information Retrieval (CLIR) の高密度検索モデルである。
CLIRでは、ドキュメントは1つの自然言語で書かれ、クエリは別の自然言語で表現される。
関連するタスクは多言語IR(MLIR)であり、システムは複数の言語で書かれた文書の単一のランクリストを作成する。
ColBERT-Xは、文書のランク付けに事前訓練された多言語ニューラルネットワークモデルに依存しているため、多言語トレーニング手順は、MLIRに適したColBERT-Xのバージョンを可能にする。
本稿では,その訓練手順について述べる。
MLIRランキングにおいて重要な要素は、混合言語バッチを使用してXLM-Rを微調整することである。
モデルの微調整にはMS MARCOパスのニューラルマシン翻訳を用いる。
関連論文リスト
- Distillation for Multilingual Information Retrieval [10.223578525761617]
Translate-Distillフレームワークは翻訳と蒸留を用いて言語間ニューラルデュアルエンコーダモデルを訓練する。
本研究はTranslate-Distillを拡張し,多言語情報検索のためのTranslate-Distill (MTD)を提案する。
MTDで訓練したColBERT-Xモデルは、訓練したith Multilingual Translate-Trainよりも、nDCG@20で5%から25%、MAPで15%から45%優れていた。
論文 参考訳(メタデータ) (2024-05-02T03:30:03Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Transfer Learning Approaches for Building Cross-Language Dense Retrieval
Models [25.150140840908257]
ColBERT-Xは、言語間の情報検索をサポートするために、ColBERT多表現密度検索モデルの一般化である。
ゼロショットトレーニングでは、XLM-Rエンコーダを使って英語MS MARCOコレクションをトレーニングする。
翻訳訓練では、MS MARCOの英語クエリと関連するMS MARCOの機械翻訳を併用して訓練を行う。
論文 参考訳(メタデータ) (2022-01-20T22:11:38Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich
Document Understanding [34.42574051786547]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、視覚的にリッチな文書理解タスクのためのSOTA性能を達成している。
視覚的に豊富な文書理解のための言語障壁を橋渡しすることを目的とした多言語文書理解のためのマルチモーダル事前訓練モデルを提示する。
論文 参考訳(メタデータ) (2021-04-18T12:16:00Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。