論文の概要: Transfer Learning Approaches for Building Cross-Language Dense Retrieval
Models
- arxiv url: http://arxiv.org/abs/2201.08471v1
- Date: Thu, 20 Jan 2022 22:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-30 11:50:03.963778
- Title: Transfer Learning Approaches for Building Cross-Language Dense Retrieval
Models
- Title(参考訳): 言語間密検索モデル構築のためのトランスファー学習手法
- Authors: Suraj Nair, Eugene Yang, Dawn Lawrie, Kevin Duh, Paul McNamee, Kenton
Murray, James Mayfield, Douglas W. Oard
- Abstract要約: ColBERT-Xは、言語間の情報検索をサポートするために、ColBERT多表現密度検索モデルの一般化である。
ゼロショットトレーニングでは、XLM-Rエンコーダを使って英語MS MARCOコレクションをトレーニングする。
翻訳訓練では、MS MARCOの英語クエリと関連するMS MARCOの機械翻訳を併用して訓練を行う。
- 参考スコア(独自算出の注目度): 25.150140840908257
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advent of transformer-based models such as BERT has led to the rise of
neural ranking models. These models have improved the effectiveness of
retrieval systems well beyond that of lexical term matching models such as
BM25. While monolingual retrieval tasks have benefited from large-scale
training collections such as MS MARCO and advances in neural architectures,
cross-language retrieval tasks have fallen behind these advancements. This
paper introduces ColBERT-X, a generalization of the ColBERT
multi-representation dense retrieval model that uses the XLM-RoBERTa (XLM-R)
encoder to support cross-language information retrieval (CLIR). ColBERT-X can
be trained in two ways. In zero-shot training, the system is trained on the
English MS MARCO collection, relying on the XLM-R encoder for cross-language
mappings. In translate-train, the system is trained on the MS MARCO English
queries coupled with machine translations of the associated MS MARCO passages.
Results on ad hoc document ranking tasks in several languages demonstrate
substantial and statistically significant improvements of these trained dense
retrieval models over traditional lexical CLIR baselines.
- Abstract(参考訳): BERTのようなトランスフォーマーベースのモデルの出現は、ニューラルランキングモデルの台頭につながった。
これらのモデルにより, bm25のような語彙項マッチングモデルよりも, 検索システムの有効性が向上した。
モノリンガル検索タスクは、MS MARCOのような大規模トレーニングコレクションやニューラルアーキテクチャの進歩の恩恵を受けているが、言語横断検索タスクはこれらの進歩に遅れを取っている。
本稿では、XLM-RoBERTa(XLM-R)エンコーダを用いて、言語間情報検索(CLIR)をサポートするColBERT-Xについて述べる。
ColBERT-Xは2つの方法で訓練できる。
ゼロショットトレーニングでは、このシステムはxlm-rエンコーダを言語間マッピングに依存して、英語のms marcoコレクションでトレーニングされる。
翻訳訓練では、MS MARCOの英語クエリと関連するMS MARCOの機械翻訳を併用して訓練を行う。
いくつかの言語におけるアドホック文書ランキングタスクの結果は、従来のCLIRベースラインよりも、これらの訓練された高密度検索モデルの実質的かつ統計的に有意な改善を示している。
関連論文リスト
- ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Translate-Distill: Learning Cross-Language Dense Retrieval by
Translation and Distillation [17.211592060717713]
本稿では,モノリンガルのクロスエンコーダとCLIRのクロスエンコーダのどちらかから知識を蒸留して,デュアルエンコーダCLIRの学生モデルを訓練するTranslate-Distillを提案する。
このよりリッチなデザインスペースにより、教師モデルは、CLIRのために学生モデルを直接トレーニングしながら、最適化された設定で推論を実行できるようになる。
論文 参考訳(メタデータ) (2024-01-09T20:40:49Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - Lost in Translation, Found in Spans: Identifying Claims in Multilingual
Social Media [40.26888469822391]
クレームスパン識別(CSI)は、ファクトチェックパイプラインの重要なステップである。
ジャーナリストや人間のファクトチェッカーにとって重要な問題だが、いまだに過小評価されている問題である。
我々は、多くのソーシャルメディアプラットフォームから5つのインド語と英語で収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成します。
論文 参考訳(メタデータ) (2023-10-27T15:28:12Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Multilingual ColBERT-X [11.768656900939048]
ColBERT-Xはクロスランゲージ情報検索(CLIR)のための高密度検索モデルである
CLIRでは、ドキュメントは1つの自然言語で書かれ、クエリは別の自然言語で表現される。
関連するタスクは多言語IR(MLIR)であり、システムは複数の言語で書かれた文書の単一のランクリストを作成する。
論文 参考訳(メタデータ) (2022-09-03T06:02:52Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。