論文の概要: Think you have Solved Direct-Answer Question Answering? Try ARC-DA, the
Direct-Answer AI2 Reasoning Challenge
- arxiv url: http://arxiv.org/abs/2102.03315v1
- Date: Fri, 5 Feb 2021 17:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 20:45:49.603347
- Title: Think you have Solved Direct-Answer Question Answering? Try ARC-DA, the
Direct-Answer AI2 Reasoning Challenge
- Title(参考訳): 直答質問の回答は解けたか?
AI2を直接答えるTry ARC-DA
- Authors: Sumithra Bhakthavatsalam, Daniel Khashabi, Tushar Khot, Bhavana Dalvi
Mishra, Kyle Richardson, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord,
Peter Clark
- Abstract要約: 我々は、ARC(AI2 Reasoning Challenge)多重選択データセットの直接回答(オープン応答、フリーフォーム)バージョンであるARC-DAデータセットを提案する。
ARC-DAデータセットは、クラウドソーシングとエキスパートレビューを組み合わせることで、質問を直接回答形式に変換することで懸念に対処する。
結果のデータセットには2985の質問と8436の有効な回答が含まれている。
- 参考スコア(独自算出の注目度): 42.288815817894935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the ARC-DA dataset, a direct-answer ("open response", "freeform")
version of the ARC (AI2 Reasoning Challenge) multiple-choice dataset. While ARC
has been influential in the community, its multiple-choice format is
unrepresentative of real-world questions, and multiple choice formats can be
particularly susceptible to artifacts. The ARC-DA dataset addresses these
concerns by converting questions to direct-answer format using a combination of
crowdsourcing and expert review. The resulting dataset contains 2985 questions
with a total of 8436 valid answers (questions typically have more than one
valid answer). ARC-DA is one of the first DA datasets of natural questions that
often require reasoning, and where appropriate question decompositions are not
evident from the questions themselves. We describe the conversion approach
taken, appropriate evaluation metrics, and several strong models. Although
high, the best scores (81% GENIE, 61.4% F1, 63.2% ROUGE-L) still leave
considerable room for improvement. In addition, the dataset provides a natural
setting for new research on explanation, as many questions require reasoning to
construct answers. We hope the dataset spurs further advances in complex
question-answering by the community. ARC-DA is available at
https://allenai.org/data/arc-da
- Abstract(参考訳): 我々は、ARC(AI2 Reasoning Challenge)多重選択データセットの直接回答(オープン応答、フリーフォーム)バージョンであるARC-DAデータセットを提案する。
ARCはコミュニティで影響力を持っているが、その複数選択形式は現実世界の質問には表れず、複数の選択形式はアーティファクトに対して特に影響を受けやすい。
ARC-DAデータセットは、クラウドソーシングとエキスパートレビューを組み合わせて質問を直接回答形式に変換することで、これらの懸念に対処する。
その結果得られたデータセットには、合計8436の有効回答を含む2985の質問が含まれている(質問は通常、複数の有効回答がある)。
ARC-DAは、しばしば推論を必要とする自然問題の最初のDAデータセットの1つであり、適切な質問分解が質問自体から明らかでない。
本稿では, 変換手法, 適切な評価基準, 強力なモデルについて述べる。
高いが、ベストスコア(81% GENIE、61.4% F1、63.2% ROUGE-L)はまだ改善の余地を残している。
さらに、このデータセットは、多くの質問が答えを構築するために推論を必要とするため、説明に関する新しい研究に自然な設定を提供する。
データセットがコミュニティによる複雑な質問処理のさらなる進歩を促すことを期待している。
ARC-DAはhttps://allenai.org/data/arc-daで入手できます。
関連論文リスト
- RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - RxWhyQA: a clinical question-answering dataset with the challenge of
multi-answer questions [4.017119245460155]
我々は,複数問合せを処理可能な臨床問合せシステムの開発と評価のためのデータセットを作成する。
1-to-0と1-to-Nの薬物親和関係は、解答不能および複数解答項目を形成した。
論文 参考訳(メタデータ) (2022-01-07T15:58:58Z) - Disfl-QA: A Benchmark Dataset for Understanding Disfluencies in Question
Answering [21.857273918785452]
Disfl-QAは、データセットに対する新たな課題である。
Disfl-QAには、テキストのより包括的な理解を必要とする様々な難題が含まれている。
また,データ拡張手法により性能の低下を部分的に回復し,さらに細調整に金のデータを用いることの有効性を示した。
論文 参考訳(メタデータ) (2021-06-08T00:03:40Z) - VANiLLa : Verbalized Answers in Natural Language at Large Scale [2.9098477555578333]
このデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の単純な質問で構成されている。
このデータセットの回答文は、三つの事実よりも構文的に、意味的に質問に近い。
論文 参考訳(メタデータ) (2021-05-24T16:57:54Z) - Reference-based Weak Supervision for Answer Sentence Selection using Web
Data [87.18646699292293]
完全自動大規模データパイプラインであるReference-based Weak Supervision (RWS)を紹介する。
RWSは豊富なWebデータから高品質な教師付き回答を抽出する。
我々の実験は、生成したデータが常にTANDAを支えていることを示している。
論文 参考訳(メタデータ) (2021-04-18T19:41:17Z) - 'Just because you are right, doesn't mean I am wrong': Overcoming a
Bottleneck in the Development and Evaluation of Open-Ended Visual Question
Answering (VQA) Tasks [11.299897008333241]
GQAは、現実世界の視覚的推論と構成的質問応答のためのデータセットである。
GQAデータセットの最良のビジョンモデルによって予測される多くの回答は、基礎的真実の答えと一致しないが、与えられたコンテキストにおいて意味的に意味があり正しい。
我々は,この制限に対処するために,既設のNLPツールを用いて自動生成する,地中回答の代替アンサーセット(AAS)を提案する。
論文 参考訳(メタデータ) (2021-03-28T00:07:08Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。