論文の概要: IDK-MRC: Unanswerable Questions for Indonesian Machine Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2210.13778v1
- Date: Tue, 25 Oct 2022 05:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:41:03.866231
- Title: IDK-MRC: Unanswerable Questions for Indonesian Machine Reading
Comprehension
- Title(参考訳): IDK-MRC: インドネシアの機械読解に関する疑問
- Authors: Rifki Afina Putri and Alice Oh
- Abstract要約: 我々はI(n)don'tKnow MRC(IDK-MRC)と呼ばれるインドネシアの新しいMRCデータセットを構築し、自動および手動で解決不可能な質問生成を組み合わせた。
分析の結果,我々のデータセットはインドネシアのMRCモデルの性能を大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 11.68337847602093
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine Reading Comprehension (MRC) has become one of the essential tasks in
Natural Language Understanding (NLU) as it is often included in several NLU
benchmarks (Liang et al., 2020; Wilie et al., 2020). However, most MRC datasets
only have answerable question type, overlooking the importance of unanswerable
questions. MRC models trained only on answerable questions will select the span
that is most likely to be the answer, even when the answer does not actually
exist in the given passage (Rajpurkar et al., 2018). This problem especially
remains in medium- to low-resource languages like Indonesian. Existing
Indonesian MRC datasets (Purwarianti et al., 2007; Clark et al., 2020) are
still inadequate because of the small size and limited question types, i.e.,
they only cover answerable questions. To fill this gap, we build a new
Indonesian MRC dataset called I(n)don'tKnow- MRC (IDK-MRC) by combining the
automatic and manual unanswerable question generation to minimize the cost of
manual dataset construction while maintaining the dataset quality. Combined
with the existing answerable questions, IDK-MRC consists of more than 10K
questions in total. Our analysis shows that our dataset significantly improves
the performance of Indonesian MRC models, showing a large improvement for
unanswerable questions.
- Abstract(参考訳): Machine Reading Comprehension (MRC)は、自然言語理解(NLU)において重要なタスクの1つとなり、いくつかのNLUベンチマーク(Liang et al., 2020; Wilie et al., 2020)に含まれている。
しかし、ほとんどのMRCデータセットは答え可能な質問タイプしか持たず、答えられない質問の重要性を見落としている。
回答可能な質問のみを訓練したmrcモデルは、与えられた文に答えが実際に存在しない場合でも、答えの可能性が高いスパンを選択する(rajpurkar et al., 2018)。
この問題は特にインドネシアのような中・低リソース言語に残る。
既存のインドネシアのmrcデータセット(purwarianti et al., 2007; clark et al., 2020)は、サイズが小さく、質問タイプが限られているため、まだ不十分である。
このギャップを埋めるために、自動および手動で解決不可能な質問生成を組み合わせることで、データセットの品質を維持しながら、手動データセット構築のコストを最小化することで、インドネシアの新しいMRCデータセットI(n)don'tKnow-MRC(IDK-MRC)を構築します。
既存の回答可能な質問と組み合わせて、IDK-MRCは合計で10万以上の質問で構成されている。
分析の結果,我々のデータセットはインドネシアのMRCモデルの性能を著しく改善し,疑わしい質問に対する大きな改善が見られた。
関連論文リスト
- Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - A Dataset of Open-Domain Question Answering with Multiple-Span Answers [11.291635421662338]
マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
論文 参考訳(メタデータ) (2024-02-15T13:03:57Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - ExpMRC: Explainability Evaluation for Machine Reading Comprehension [42.483940360860096]
我々は,機械読解システムの説明可能性を評価するためのExpMRCと呼ばれる新しいベンチマークを提案する。
我々は、最先端の事前訓練言語モデルを用いてベースラインシステムを構築し、人間の注釈のないトレーニングセットなしで証拠を抽出するための様々な教師なしアプローチを採用する。
論文 参考訳(メタデータ) (2021-05-10T06:00:20Z) - Self-Teaching Machines to Read and Comprehend with Large-Scale
Multi-Subject Question Answering Data [58.36305373100518]
主観的問合せデータが機械読解作業に有用かどうかは不明である。
大規模多目的多目的質問回答データセットであるExamQAを収集する。
我々は、Web検索エンジンが返す不完全でノイズの多いスニペットを、各質問応答インスタンスの関連するコンテキストとして使用し、弱いラベル付きMRCインスタンスに変換する。
論文 参考訳(メタデータ) (2021-02-01T23:18:58Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z) - A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and
Benchmark Datasets [5.54205518616467]
機械読み取り(Machine Reading、MRC)は、自然言語処理(NLP)の研究分野である。
MRCモデルの多くは、さまざまなベンチマークデータセットで人のパフォーマンスをすでに上回っている。
これは、既存のデータセット、評価指標、モデルを改善して、現在のMCCモデルを"リアル"な理解へと移行する必要性を示しています。
論文 参考訳(メタデータ) (2020-06-21T19:18:54Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。