論文の概要: A Dataset of Open-Domain Question Answering with Multiple-Span Answers
- arxiv url: http://arxiv.org/abs/2402.09923v1
- Date: Thu, 15 Feb 2024 13:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:52:40.589924
- Title: A Dataset of Open-Domain Question Answering with Multiple-Span Answers
- Title(参考訳): 複数回答を用いたオープンドメイン質問応答のデータセット
- Authors: Zhiyi Luo, Yingying Zhang, Shuyun Luo, Ying Zhao, Wentao Lyu
- Abstract要約: マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
- 参考スコア(独自算出の注目度): 11.291635421662338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-span answer extraction, also known as the task of multi-span question
answering (MSQA), is critical for real-world applications, as it requires
extracting multiple pieces of information from a text to answer complex
questions. Despite the active studies and rapid progress in English MSQA
research, there is a notable lack of publicly available MSQA benchmark in
Chinese. Previous efforts for constructing MSQA datasets predominantly
emphasized entity-centric contextualization, resulting in a bias towards
collecting factoid questions and potentially overlooking questions requiring
more detailed descriptive responses. To overcome these limitations, we present
CLEAN, a comprehensive Chinese multi-span question answering dataset that
involves a wide range of open-domain subjects with a substantial number of
instances requiring descriptive answers. Additionally, we provide established
models from relevant literature as baselines for CLEAN. Experimental results
and analysis show the characteristics and challenge of the newly proposed CLEAN
dataset for the community. Our dataset, CLEAN, will be publicly released at
zhiyiluo.site/misc/clean_v1.0_ sample.json.
- Abstract(参考訳): マルチスパン回答抽出は、マルチスパン質問応答(msqa:multi-span question answering)としても知られ、複雑な質問に答えるためにテキストから複数の情報を抽出する必要があるため、現実世界のアプリケーションにとって重要である。
英語MSQA研究の活発な研究と急速な進歩にもかかわらず、中国語で公開されているMSQAベンチマークが欠如している。
MSQAデータセットの構築に対するこれまでの取り組みは、エンティティ中心のコンテキスト化を主に重視していたため、ファクトイドな質問の収集や、より詳細な記述的な回答を必要とする質問の見落としに偏っている。
このような制限を克服するために,我々は,広範囲のオープンドメイン課題を対象とする包括的中国語マルチスパン質問応答データセットであるcleanを提案する。
さらに,関連する文献の確立したモデルをクリーンのベースラインとして提供する。
実験結果と分析結果から,新たに提案したCLEANデータセットの特徴と課題が示された。
私たちのデータセット、cleanはzhiyiluo.site/misc/clean_v1.0_ sample.jsonで公開されます。
関連論文リスト
- Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - PCoQA: Persian Conversational Question Answering Dataset [12.07607688189035]
PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
論文 参考訳(メタデータ) (2023-12-07T15:29:34Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Activity report analysis with automatic single or multispan answer
extraction [0.21485350418225244]
我々は,質問内容や質問内容に応じて,単一回答と複数回答のペアによる新しいスマートホーム環境データセットを作成する。
実験の結果,提案手法はデータセット上での最先端QAモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-09T06:33:29Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - RxWhyQA: a clinical question-answering dataset with the challenge of
multi-answer questions [4.017119245460155]
我々は,複数問合せを処理可能な臨床問合せシステムの開発と評価のためのデータセットを作成する。
1-to-0と1-to-Nの薬物親和関係は、解答不能および複数解答項目を形成した。
論文 参考訳(メタデータ) (2022-01-07T15:58:58Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - Self-Teaching Machines to Read and Comprehend with Large-Scale
Multi-Subject Question Answering Data [58.36305373100518]
主観的問合せデータが機械読解作業に有用かどうかは不明である。
大規模多目的多目的質問回答データセットであるExamQAを収集する。
我々は、Web検索エンジンが返す不完全でノイズの多いスニペットを、各質問応答インスタンスの関連するコンテキストとして使用し、弱いラベル付きMRCインスタンスに変換する。
論文 参考訳(メタデータ) (2021-02-01T23:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。