論文の概要: Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation
- arxiv url: http://arxiv.org/abs/2301.12566v1
- Date: Sun, 29 Jan 2023 22:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:21:17.040719
- Title: Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation
- Title(参考訳): 最適輸送蒸留による低リソース言語における言語間情報検索の改善
- Authors: Zhiqi Huang, Puxuan Yu, James Allan
- Abstract要約: 本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 21.057178077747754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from transformer-based pre-trained language models, neural ranking
models have made significant progress. More recently, the advent of
multilingual pre-trained language models provides great support for designing
neural cross-lingual retrieval models. However, due to unbalanced pre-training
data in different languages, multilingual language models have already shown a
performance gap between high and low-resource languages in many downstream
tasks. And cross-lingual retrieval models built on such pre-trained models can
inherit language bias, leading to suboptimal result for low-resource languages.
Moreover, unlike the English-to-English retrieval task, where large-scale
training collections for document ranking such as MS MARCO are available, the
lack of cross-lingual retrieval data for low-resource language makes it more
challenging for training cross-lingual retrieval models. In this work, we
propose OPTICAL: Optimal Transport distillation for low-resource Cross-lingual
information retrieval. To transfer a model from high to low resource languages,
OPTICAL forms the cross-lingual token alignment task as an optimal transport
problem to learn from a well-trained monolingual retrieval model. By separating
the cross-lingual knowledge from knowledge of query document matching, OPTICAL
only needs bitext data for distillation training, which is more feasible for
low-resource languages. Experimental results show that, with minimal training
data, OPTICAL significantly outperforms strong baselines on low-resource
languages, including neural machine translation.
- Abstract(参考訳): トランスフォーマーベースの事前訓練言語モデルから恩恵を受け、ニューラルランキングモデルは大きな進歩を遂げた。
最近では、多言語事前訓練言語モデルの出現は、ニューラルな言語間検索モデルを設計するための優れたサポートを提供する。
しかし、異なる言語で不均衡な事前学習データのため、多言語言語モデルは、多くの下流タスクにおいて、高リソース言語と低リソース言語のパフォーマンスギャップを既に示している。
そして、そのような事前訓練されたモデル上に構築された言語間検索モデルは、言語バイアスを継承し、低リソース言語に最適な結果をもたらす。
さらに、MS MARCOのような文書ランキングのための大規模トレーニングコレクションが利用できる英語と英語の検索タスクとは異なり、低リソース言語のための言語間検索データが欠如しているため、言語間検索モデルの訓練が困難になる。
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
高リソース言語から低リソース言語へモデルを転送するために、OPTICALは、よく訓練された単言語検索モデルから学習する最適な輸送問題として、クロスランガルトークンアライメントタスクを形成する。
言語横断的な知識とクエリ文書マッチングの知識を分離することで、opticalは蒸留訓練のためのバイテキストデータのみを必要とする。
実験の結果、最小限のトレーニングデータにより、OPTICALはニューラルマシン翻訳を含む低リソース言語における強力なベースラインを著しく上回っていることがわかった。
関連論文リスト
- A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。