論文の概要: Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End
Question Answering
- arxiv url: http://arxiv.org/abs/2210.01613v1
- Date: Tue, 4 Oct 2022 13:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:15:38.358917
- Title: Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End
Question Answering
- Title(参考訳): Mintaka: エンドツーエンド質問応答のための複雑・自然・多言語データセット
- Authors: Priyanka Sen, Alham Fikri Aji, Amir Saffari
- Abstract要約: エンド・ツー・エンドの問合せモデルを試すために設計されたデータセットであるMintakaを紹介する。
ミンタカは2万組の質問回答対を英語で収集し、Wikidataエンティティに注釈を付け、アラビア語、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、ポルトガル語、スペイン語に合計180,000のサンプルを翻訳している。
- 参考スコア(独自算出の注目度): 4.97728211172095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Mintaka, a complex, natural, and multilingual dataset designed
for experimenting with end-to-end question-answering models. Mintaka is
composed of 20,000 question-answer pairs collected in English, annotated with
Wikidata entities, and translated into Arabic, French, German, Hindi, Italian,
Japanese, Portuguese, and Spanish for a total of 180,000 samples. Mintaka
includes 8 types of complex questions, including superlative, intersection, and
multi-hop questions, which were naturally elicited from crowd workers. We run
baselines over Mintaka, the best of which achieves 38% hits@1 in English and
31% hits@1 multilingually, showing that existing models have room for
improvement. We release Mintaka at https://github.com/amazon-research/mintaka.
- Abstract(参考訳): エンド・ツー・エンドの質問応答モデルの実験用に設計された,複雑で自然な多言語データセットであるmintakaを紹介する。
ミンタカは2万組の質問回答対を英語で収集し、Wikidataエンティティに注釈を付け、アラビア語、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、ポルトガル語、スペイン語に合計180,000のサンプルを翻訳している。
mintakaには、スプレッドシート、交差点、マルチホップの質問を含む8種類の複雑な質問が含まれている。
Mintakaは英語で38%のヒット@1、多言語で31%のヒット@1を達成しており、既存のモデルに改善の余地があることを示しています。
Mintakaはhttps://github.com/amazon-research/mintaka.comでリリースしています。
関連論文リスト
- CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - FQuAD2.0: French Question Answering and knowing that you know nothing [0.25782420501870296]
我々は FQuAD2.0 を導入し, FQuAD を 17,000 以上の質問で拡張する。
このデータセットは、解答不可能な質問と解答不能な質問を区別する機能を備えた、フレンチ質問回答モデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-27T17:30:46Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain
Question Answering [6.452012363895865]
このデータセットは、質問応答を評価するために、現在最も広い範囲の言語を提供する。
生成的および抽出的質問応答のための様々な最先端手法とベースラインをベンチマークする。
結果は、このデータセットが英語でも、特に低リソース言語では挑戦的であることを示している。
論文 参考訳(メタデータ) (2020-07-30T03:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。