論文の概要: Language Agnostic Multilingual Information Retrieval with Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2210.06633v2
- Date: Tue, 9 May 2023 03:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 16:26:28.730606
- Title: Language Agnostic Multilingual Information Retrieval with Contrastive
Learning
- Title(参考訳): コントラスト学習による言語非依存多言語情報検索
- Authors: Xiyang Hu, Xinchi Chen, Peng Qi, Deguang Kong, Kunlun Liu, William
Yang Wang, Zhiheng Huang
- Abstract要約: 本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
- 参考スコア(独自算出の注目度): 59.26316111760971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual information retrieval (IR) is challenging since annotated
training data is costly to obtain in many languages. We present an effective
method to train multilingual IR systems when only English IR training data and
some parallel corpora between English and other languages are available. We
leverage parallel and non-parallel corpora to improve the pretrained
multilingual language models' cross-lingual transfer ability. We design a
semantic contrastive loss to align representations of parallel sentences that
share the same semantics in different languages, and a new language contrastive
loss to leverage parallel sentence pairs to remove language-specific
information in sentence representations from non-parallel corpora. When trained
on English IR data with these losses and evaluated zero-shot on non-English
data, our model demonstrates significant improvement to prior work on retrieval
performance, while it requires much less computational effort. We also
demonstrate the value of our model for a practical setting when a parallel
corpus is only available for a few languages, but a lack of parallel corpora
resources persists for many other low-resource languages. Our model can work
well even with a small number of parallel sentences, and be used as an add-on
module to any backbones and other tasks.
- Abstract(参考訳): 多言語情報検索(IR)は、注釈付きトレーニングデータが多くの言語で取得するのにコストがかかるため困難である。
本稿では、英語のIRトレーニングデータと、英語と他言語の並列コーパスのみを利用できる場合に、多言語IRシステムの学習に有効な方法を提案する。
パラレルコーポラと非並列コーポラを用いて,事前学習された多言語モデルの言語間伝達能力を向上させる。
我々は、異なる言語で同じ意味を持つ並列文の表現を整合させる意味的コントラストロスを設計し、並列文ペアを利用して非並列コーパスから文表現における言語固有の情報を除去する新しい言語コントラストロスを設計する。
これらの損失を伴って英語のIRデータをトレーニングし、非英語データでゼロショットを評価すると、検索性能に関する先行研究よりも大幅に改善され、計算労力は大幅に削減される。
また,並列コーパスがいくつかの言語でのみ利用可能である場合,並列コーパスリソースの欠如が他の低リソース言語で持続する場合には,実用的にモデルの価値を示す。
私たちのモデルは、少数の並列文でもうまく機能し、バックボーンや他のタスクへのアドオンモジュールとして使用できます。
関連論文リスト
- Zero-shot Cross-lingual Transfer without Parallel Corpus [6.937772043639308]
本稿では,事前学習モデルを用いてゼロショット言語間移動を行う手法を提案する。
タスク関連のバイリンガル情報アライメントを適用するバイリンガルタスクフィッティングモジュールで構成されている。
自己学習モジュールは、ラベルのないデータに対して擬似ソフトおよびハードラベルを生成し、それを利用して自己学習を行う。
論文 参考訳(メタデータ) (2023-10-07T07:54:22Z) - PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for
Translation with Semi-Supervised Pseudo-Parallel Document Generation [5.004814662623874]
本稿では,多言語事前学習のための高品質な擬似並列データを生成する,新しい半教師付きSPDGを提案する。
実験の結果, PEACH はmT5 と mBART を様々な翻訳タスクで訓練する上で, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T18:19:26Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。