論文の概要: Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval
- arxiv url: http://arxiv.org/abs/2012.14094v1
- Date: Mon, 28 Dec 2020 04:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 18:02:01.787672
- Title: Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval
- Title(参考訳): Pivot through English: 文書検索なしで多言語質問に確実に答える
- Authors: Ivan Montero, Shayne Longpre, Ni Lao, Andrew J. Frank, Christopher
DuBois
- Abstract要約: 低リソース言語(LRL)における解答に対する既存の解答法は、英語に大きく遅れた。
文書検索を回避し、英語から低リソース言語への知識の確実に転送する、より現実的なタスクセットアップを利用可能なリソースに策定します。
このタスク設定内では、リランク付き英語学習セットに対する意味的類似性検索に類似した、Reranked Maximal Internal Product Search (RM-MIPS)を提案する。
- 参考スコア(独自算出の注目度): 4.4973334555746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for open-retrieval question answering in lower resource
languages (LRLs) lag significantly behind English. They not only suffer from
the shortcomings of non-English document retrieval, but are reliant on
language-specific supervision for either the task or translation. We formulate
a task setup more realistic to available resources, that circumvents document
retrieval to reliably transfer knowledge from English to lower resource
languages. Assuming a strong English question answering model or database, we
compare and analyze methods that pivot through English: to map foreign queries
to English and then English answers back to target language answers. Within
this task setup we propose Reranked Multilingual Maximal Inner Product Search
(RM-MIPS), akin to semantic similarity retrieval over the English training set
with reranking, which outperforms the strongest baselines by 2.7% on XQuAD and
6.2% on MKQA. Analysis demonstrates the particular efficacy of this strategy
over state-of-the-art alternatives in challenging settings: low-resource
languages, with extensive distractor data and query distribution misalignment.
Circumventing retrieval, our analysis shows this approach offers rapid answer
generation to almost any language off-the-shelf, without the need for any
additional training data in the target language.
- Abstract(参考訳): 低資源言語 (LRL) における解答の解答法は英語よりかなり遅れている。
それらは非英語の文書検索の欠点に苦しむだけでなく、タスクや翻訳の言語固有の監督に依存しています。
利用可能なリソースに対してより現実的なタスク設定を定式化し、文書検索を回避し、知識を英語から低リソース言語に確実に伝達する。
強固な英語質問応答モデルまたはデータベースを仮定して、英語をピボットする手法を比較し分析する: 外部クエリを英語にマップし、その後、英語回答を対象言語回答に戻す。
このタスク設定内では、再ランク付き英語トレーニングセットのセマンティック類似性検索に類似したReranked Multilingual Maximal Inner Product Search (RM-MIPS)を提案し、XQuADでは2.7%、MKQAでは6.2%で最強のベースラインを上回ります。
分析は、低リソース言語、広範囲なイントラクタデータ、クエリ分散のミスアライメントといった、挑戦的な設定における最先端の代替手段に対するこの戦略の有効性を示す。
検索を回避して,本手法は,対象言語で追加のトレーニングデータを必要とせずに,ほぼすべての言語に迅速な応答生成を提供する。
関連論文リスト
- Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Multilingual Open QA on the MIA Shared Task [0.04285555583808084]
言語間情報検索(CLIR)は、クエリが異なる低リソースの言語でポーズされている場合でも、任意の言語で関連するテキストを見つけることができる。
オープンな質問応答における経路検索を改善するための,シンプルで効果的な再ランク付け手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T21:43:09Z) - PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks [57.86928556668849]
大規模言語モデル(LLM)は、近ごろ、コンテキスト内学習(ICL)を通じて、印象的な数ショットの学習能力を実証した。
ICLのパフォーマンスは、数発のデモの選択に大きく依存しており、最も最適な例の選択は永続的な研究課題である。
本稿では,低リソースのIndic言語におけるICLの性能向上を目的とした,新しい代替最小化手法であるPromptRefineを提案する。
論文 参考訳(メタデータ) (2024-12-07T17:51:31Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - What are the limits of cross-lingual dense passage retrieval for low-resource languages? [23.88853455670863]
極低リソース言語に対するマルチ言語パスレトリバー(mDPR)の機能解析を行う。
mDPRは26言語にわたるマルチリンガルなオープンQAベンチマークで成功し、そのうち9つはトレーニング中に見つからなかった。
我々はmDPRが不十分な2つの非常に低リソース言語(AmharicとKhmer)に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T18:51:46Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using
Zero-shot Learning [30.868309879441615]
我々は、事前訓練された多言語言語モデルを利用して、英語コレクションで訓練された検索システムを非英語クエリや文書に転送することで、データの欠如に対処する。
提案手法は,アラビア語,中国語,スペイン語の教師なし検索手法を著しく上回りうることを示す。
論文 参考訳(メタデータ) (2019-12-30T20:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。