論文の概要: Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval
- arxiv url: http://arxiv.org/abs/2012.14094v1
- Date: Mon, 28 Dec 2020 04:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 18:02:01.787672
- Title: Pivot Through English: Reliably Answering Multilingual Questions without
Document Retrieval
- Title(参考訳): Pivot through English: 文書検索なしで多言語質問に確実に答える
- Authors: Ivan Montero, Shayne Longpre, Ni Lao, Andrew J. Frank, Christopher
DuBois
- Abstract要約: 低リソース言語(LRL)における解答に対する既存の解答法は、英語に大きく遅れた。
文書検索を回避し、英語から低リソース言語への知識の確実に転送する、より現実的なタスクセットアップを利用可能なリソースに策定します。
このタスク設定内では、リランク付き英語学習セットに対する意味的類似性検索に類似した、Reranked Maximal Internal Product Search (RM-MIPS)を提案する。
- 参考スコア(独自算出の注目度): 4.4973334555746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for open-retrieval question answering in lower resource
languages (LRLs) lag significantly behind English. They not only suffer from
the shortcomings of non-English document retrieval, but are reliant on
language-specific supervision for either the task or translation. We formulate
a task setup more realistic to available resources, that circumvents document
retrieval to reliably transfer knowledge from English to lower resource
languages. Assuming a strong English question answering model or database, we
compare and analyze methods that pivot through English: to map foreign queries
to English and then English answers back to target language answers. Within
this task setup we propose Reranked Multilingual Maximal Inner Product Search
(RM-MIPS), akin to semantic similarity retrieval over the English training set
with reranking, which outperforms the strongest baselines by 2.7% on XQuAD and
6.2% on MKQA. Analysis demonstrates the particular efficacy of this strategy
over state-of-the-art alternatives in challenging settings: low-resource
languages, with extensive distractor data and query distribution misalignment.
Circumventing retrieval, our analysis shows this approach offers rapid answer
generation to almost any language off-the-shelf, without the need for any
additional training data in the target language.
- Abstract(参考訳): 低資源言語 (LRL) における解答の解答法は英語よりかなり遅れている。
それらは非英語の文書検索の欠点に苦しむだけでなく、タスクや翻訳の言語固有の監督に依存しています。
利用可能なリソースに対してより現実的なタスク設定を定式化し、文書検索を回避し、知識を英語から低リソース言語に確実に伝達する。
強固な英語質問応答モデルまたはデータベースを仮定して、英語をピボットする手法を比較し分析する: 外部クエリを英語にマップし、その後、英語回答を対象言語回答に戻す。
このタスク設定内では、再ランク付き英語トレーニングセットのセマンティック類似性検索に類似したReranked Multilingual Maximal Inner Product Search (RM-MIPS)を提案し、XQuADでは2.7%、MKQAでは6.2%で最強のベースラインを上回ります。
分析は、低リソース言語、広範囲なイントラクタデータ、クエリ分散のミスアライメントといった、挑戦的な設定における最先端の代替手段に対するこの戦略の有効性を示す。
検索を回避して,本手法は,対象言語で追加のトレーニングデータを必要とせずに,ほぼすべての言語に迅速な応答生成を提供する。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - What are the limits of cross-lingual dense passage retrieval for low-resource languages? [23.88853455670863]
極低リソース言語に対するマルチ言語パスレトリバー(mDPR)の機能解析を行う。
mDPRは26言語にわたるマルチリンガルなオープンQAベンチマークで成功し、そのうち9つはトレーニング中に見つからなかった。
我々はmDPRが不十分な2つの非常に低リソース言語(AmharicとKhmer)に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T18:51:46Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - LAReQA: Language-agnostic answer retrieval from a multilingual pool [29.553907688813347]
LAReQAによる言語間アライメントの「強い」テスト。
機械翻訳による学習データの増強は効果的であることがわかった。
この発見は、言語に依存しない検索は、言語間評価の実質的な新しいタイプである、という我々の主張を裏付けるものである。
論文 参考訳(メタデータ) (2020-04-11T20:51:11Z) - Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using
Zero-shot Learning [30.868309879441615]
我々は、事前訓練された多言語言語モデルを利用して、英語コレクションで訓練された検索システムを非英語クエリや文書に転送することで、データの欠如に対処する。
提案手法は,アラビア語,中国語,スペイン語の教師なし検索手法を著しく上回りうることを示す。
論文 参考訳(メタデータ) (2019-12-30T20:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。