論文の概要: XOR QA: Cross-lingual Open-Retrieval Question Answering
- arxiv url: http://arxiv.org/abs/2010.11856v3
- Date: Tue, 13 Apr 2021 05:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:40:48.855265
- Title: XOR QA: Cross-lingual Open-Retrieval Question Answering
- Title(参考訳): xor qa: 言語横断型オープンリトライバル質問応答
- Authors: Akari Asai, Jungo Kasai, Jonathan H. Clark, Kenton Lee, Eunsol Choi
and Hannaneh Hajishirzi
- Abstract要約: この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
- 参考スコア(独自算出の注目度): 75.20578121267411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual question answering tasks typically assume answers exist in the
same language as the question. Yet in practice, many languages face both
information scarcity -- where languages have few reference articles -- and
information asymmetry -- where questions reference concepts from other
cultures. This work extends open-retrieval question answering to a
cross-lingual setting enabling questions from one language to be answered via
answer content from another language. We construct a large-scale dataset built
on questions from TyDi QA lacking same-language answers. Our task formulation,
called Cross-lingual Open Retrieval Question Answering (XOR QA), includes 40k
information-seeking questions from across 7 diverse non-English languages.
Based on this dataset, we introduce three new tasks that involve cross-lingual
document retrieval using multi-lingual and English resources. We establish
baselines with state-of-the-art machine translation systems and cross-lingual
pretrained models. Experimental results suggest that XOR QA is a challenging
task that will facilitate the development of novel techniques for multilingual
question answering. Our data and code are available at
https://nlp.cs.washington.edu/xorqa.
- Abstract(参考訳): 多言語質問応答タスクは、通常、答えは質問と同じ言語に存在すると仮定する。
しかし実際には、多くの言語は情報不足(言語に参照記事がほとんどない)と情報非対称性に直面している。
この研究は、ある言語からの質問を他の言語からの回答コンテンツを通して答えられるように、言語横断的な設定まで、オープン検索の質問応答を拡張した。
我々はTyDi QAからの質問に基づいて構築された大規模データセットを構築した。
我々のタスク定式化は、XOR QA(Cross-lingual Open Retrieval Question Answering)と呼ばれ、7つの異なる非英語言語から40万の情報検索質問を含んでいる。
本データセットに基づいて,多言語・英語資源を用いた言語間文書検索を含む3つのタスクを提案する。
我々は最先端の機械翻訳システムと言語間事前学習モデルでベースラインを確立する。
実験結果から,XOR QAは多言語質問応答のための新しい手法の開発を促進するための課題であることが示唆された。
私たちのデータとコードはhttps://nlp.cs.washington.edu/xorqaで利用可能です。
関連論文リスト
- OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context [4.39796591456426]
OMoS-QAは、信頼できる文書と手動の注釈付き回答とを組み合わせた、ドイツ語と英語の質問のデータセットである。
質問はオープンソースの大言語モデル(LLM)で自動的に生成され、回答文は群衆労働者によって選択される。
回答文の選択には高精度で低中間のリコールがあり、これは誤解を招くユーザーを避けるための好都合なトレードオフである。
論文 参考訳(メタデータ) (2024-07-22T15:40:17Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - AfriQA: Cross-lingual Open-Retrieval Question Answering for African
Languages [18.689806554953236]
XOR QAシステムは、母国語の人々に仕えながら、他言語からの回答内容を検索する。
AfriQAはアフリカ言語に焦点を当てた最初の言語間QAデータセットです。
AfriQAには10言語にわたる12,000以上のXOR QAサンプルが含まれている。
論文 参考訳(メタデータ) (2023-05-11T15:34:53Z) - Bridging the Language Gap: Knowledge Injected Multilingual Question
Answering [19.768708263635176]
本稿では,異なる言語を理解するモデルの能力を高めるために,一般化された言語間移動フレームワークを提案する。
実世界のデータセット MLQA に対する実験結果から,提案手法は大きなマージンで性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-04-06T15:41:25Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Investigating Information Inconsistency in Multilingual Open-Domain
Question Answering [18.23417521199809]
検索バイアスに着目した多言語開領域質問応答モデルの振る舞いを解析する。
言語間での文書の内容の違いは、文化的な相違や社会的偏見を反映しているのではないかと推測する。
論文 参考訳(メタデータ) (2022-05-25T02:58:54Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。