論文の概要: Cross-Lingual Training with Dense Retrieval for Document Retrieval
- arxiv url: http://arxiv.org/abs/2109.01628v1
- Date: Fri, 3 Sep 2021 17:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 14:53:39.629982
- Title: Cross-Lingual Training with Dense Retrieval for Document Retrieval
- Title(参考訳): 文書検索のためのDense Retrievalを用いた言語横断学習
- Authors: Peng Shi, Rui Zhang, He Bai, and Jimmy Lin
- Abstract要約: 我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 56.319511218754414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrieval has shown great success in passage ranking in English.
However, its effectiveness in document retrieval for non-English languages
remains unexplored due to the limitation in training resources. In this work,
we explore different transfer techniques for document ranking from English
annotations to multiple non-English languages. Our experiments on the test
collections in six languages (Chinese, Arabic, French, Hindi, Bengali, Spanish)
from diverse language families reveal that zero-shot model-based transfer using
mBERT improves the search quality in non-English mono-lingual retrieval. Also,
we find that weakly-supervised target language transfer yields competitive
performances against the generation-based target language transfer that
requires external translators and query generators.
- Abstract(参考訳): デンス検索は英語の通訳ランキングにおいて大きな成功を収めた。
しかし、非英語言語の文書検索における有効性は、訓練資源の制限のため未検討のままである。
本研究では,英語アノテーションから複数の非英語言語への文書ランク付け手法について検討する。
本研究は,中国語,アラビア語,フランス語,ヒンディー語,ベンガル語,スペイン語の6言語を対象に,mBERTを用いたゼロショットモデルによる翻訳により,非英語単言語検索における検索精度が向上することを示した。
また,弱い教師付き目標言語転送は,外部トランスレータやクエリ生成器を必要とする世代ベースの目標言語転送に対して,競争力のある性能をもたらすことが判明した。
関連論文リスト
- CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer [39.360667403003745]
ゼロショット・クロスランガル・トランスファーは実用的な解決策として浮上している。
人気のあるゼロショットベンチマークによって強化されたように、英語は転送のための主要なソース言語である。
ドイツ語やロシア語のような他の高リソース言語は、より効果的に転送されることがよくあります。
論文 参考訳(メタデータ) (2021-06-30T16:05:57Z) - Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval [4.4973334555746]
低リソース言語(LRL)における解答に対する既存の解答法は、英語に大きく遅れた。
文書検索を回避し、英語から低リソース言語への知識の確実に転送する、より現実的なタスクセットアップを利用可能なリソースに策定します。
このタスク設定内では、リランク付き英語学習セットに対する意味的類似性検索に類似した、Reranked Maximal Internal Product Search (RM-MIPS)を提案する。
論文 参考訳(メタデータ) (2020-12-28T04:38:45Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using
Zero-shot Learning [30.868309879441615]
我々は、事前訓練された多言語言語モデルを利用して、英語コレクションで訓練された検索システムを非英語クエリや文書に転送することで、データの欠如に対処する。
提案手法は,アラビア語,中国語,スペイン語の教師なし検索手法を著しく上回りうることを示す。
論文 参考訳(メタデータ) (2019-12-30T20:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。