論文の概要: ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2402.15059v1
- Date: Fri, 23 Feb 2024 02:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:49:07.540864
- Title: ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval
- Title(参考訳): ColBERT-XM:ゼロショット多言語情報検索のためのモジュール型マルチベクトル表現モデル
- Authors: Antoine Louis, Vageesh Saxena, Gijs van Dijck, Gerasimos Spanakis
- Abstract要約: 現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
- 参考スコア(独自算出の注目度): 10.664434993386523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art neural retrievers predominantly focus on high-resource
languages like English, which impedes their adoption in retrieval scenarios
involving other languages. Current approaches circumvent the lack of
high-quality labeled data in non-English languages by leveraging multilingual
pretrained language models capable of cross-lingual transfer. However, these
models require substantial task-specific fine-tuning across multiple languages,
often perform poorly in languages with minimal representation in the
pretraining corpus, and struggle to incorporate new languages after the
pretraining phase. In this work, we present a novel modular dense retrieval
model that learns from the rich data of a single high-resource language and
effectively zero-shot transfers to a wide array of languages, thereby
eliminating the need for language-specific labeled data. Our model, ColBERT-XM,
demonstrates competitive performance against existing state-of-the-art
multilingual retrievers trained on more extensive datasets in various
languages. Further analysis reveals that our modular approach is highly
data-efficient, effectively adapts to out-of-distribution data, and
significantly reduces energy consumption and carbon emissions. By demonstrating
its proficiency in zero-shot scenarios, ColBERT-XM marks a shift towards more
sustainable and inclusive retrieval systems, enabling effective information
accessibility in numerous languages. We publicly release our code and models
for the community.
- Abstract(参考訳): 最先端のニューラルレトリバーは、主に英語のような高リソース言語に焦点を当てており、他の言語を含む検索シナリオへの導入を妨げる。
現在のアプローチでは、言語間転送が可能な多言語事前学習言語モデルを利用することで、非英語言語における高品質なラベル付きデータの欠如を回避する。
しかし、これらのモデルは、複数の言語にまたがるタスク固有の微調整を必要とし、しばしば事前訓練されたコーパスにおいて最小限の表現を持つ言語では性能が悪く、事前訓練後の新しい言語の導入に苦慮している。
本稿では,1つの高リソース言語のリッチデータから学習し,多種多様な言語へのゼロショット転送を効果的に実現し,言語固有のラベル付きデータの必要性を解消した,新しいモジュール型高密度検索モデルを提案する。
我々のモデルであるColBERT-XMは、様々な言語でより広範なデータセットで訓練された既存の最先端の多言語検索と競合する性能を示す。
さらに分析したところ、我々のモジュラーアプローチはデータ効率が高く、分配外データに効果的に適応し、エネルギー消費と二酸化炭素排出量を著しく削減することがわかった。
ColBERT-XMはその性能をゼロショットシナリオで示すことで、より持続的で包括的な検索システムへとシフトし、多くの言語で効果的な情報アクセスを可能にした。
コミュニティ向けのコードとモデルを公開しています。
関連論文リスト
- Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。