論文の概要: HeySQuAD: A Spoken Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2304.13689v1
- Date: Wed, 26 Apr 2023 17:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:22:56.600059
- Title: HeySQuAD: A Spoken Question Answering Dataset
- Title(参考訳): HeySQuAD: データセットに疑問を投げかける
- Authors: Yijing Wu, SaiKrishna Rallabandi, Ravisutha Srinivasamurthy, Parag
Pravin Dakle, Alolika Gon, Preethi Raghavan
- Abstract要約: 我々は,新しい大規模コミュニティ共有SQAデータセットHeySQuADを提案する。
HeySQuADは、76万件の人間による質問と97万件の機械による質問で構成されている。
書き起こされた人間とSQADの質問を用いたトレーニングは、大きな改善をもたらすことが観察された。
- 参考スコア(独自算出の注目度): 3.1279504728331613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-spoken questions are critical to evaluating the performance of spoken
question answering (SQA) systems that serve several real-world use cases
including digital assistants. We present a new large-scale community-shared SQA
dataset, HeySQuAD that consists of 76k human-spoken questions and 97k
machine-generated questions and corresponding textual answers derived from the
SQuAD QA dataset. The goal of HeySQuAD is to measure the ability of machines to
understand noisy spoken questions and answer the questions accurately. To this
end, we run extensive benchmarks on the human-spoken and machine-generated
questions to quantify the differences in noise from both sources and its
subsequent impact on the model and answering accuracy. Importantly, for the
task of SQA, where we want to answer human-spoken questions, we observe that
training using the transcribed human-spoken and original SQuAD questions leads
to significant improvements (12.51%) over training using only the original
SQuAD textual questions.
- Abstract(参考訳): 音声による質問応答(SQA)システムの性能評価には,デジタルアシスタントなど,現実のいくつかのユースケースに役立っている。
そこで本研究では,76万件の質問と97万件の機械による質問と,SQAD QAデータセットから得られた対応文による回答からなる,大規模コミュニティ共有型SQAデータセットHeySQuADを提案する。
HeySQuADの目標は、機械が雑音の多い音声の質問を理解し、その質問に正確に答える能力を測定することである。
この目的を達成するために,人間と機械が生成する質問に対する広範囲なベンチマークを実施し,両方の音源からのノイズの違いと,そのモデルや回答精度への影響を定量化する。
SQAの課題として, 人間の文章による質問に答えたい場合, 書き起こされた人間の文章による質問とオリジナルのSQuADによる質問のトレーニングが, オリジナルのSQuADテキストによる質問のみを用いたトレーニングよりも大幅に改善した(12.51%)。
関連論文リスト
- Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - Answering Unanswered Questions through Semantic Reformulations in Spoken
QA [20.216161323866867]
Spoken Question Answering (QA) は音声アシスタントの重要な機能であり、通常は複数のQAシステムによって支援される。
我々は失敗したQA要求を分析し、語彙的ギャップ、命題型、複雑な構文構造、高い特異性など、主要な課題を特定する。
本稿では,3つの言語的操作(リペア,構文的再構成,一般化)による質問の書き直しと回答を容易にするセマンティック質問修正(SURF)モデルを提案する。
論文 参考訳(メタデータ) (2023-05-27T07:19:27Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Improving the Question Answering Quality using Answer Candidate
Filtering based on Natural-Language Features [117.44028458220427]
本稿では,質問応答(QA)の品質をいかに改善できるかという課題に対処する。
私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。
特に,提案手法は誤答の大部分を除去しつつ,その可能性を示した。
論文 参考訳(メタデータ) (2021-12-10T11:09:44Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - NoiseQA: Challenge Set Evaluation for User-Centric Question Answering [68.67783808426292]
応答エンジンに先立つパイプライン内のコンポーネントが,多種多様なエラーの原因を発生させることができることを示す。
我々は、QAシステムが効果的にデプロイされる前に、進歩の余地がかなりあると結論付けている。
論文 参考訳(メタデータ) (2021-02-16T18:35:29Z) - Summary-Oriented Question Generation for Informational Queries [23.72999724312676]
主文書のトピックに焦点をあてた自己説明的質問を,適切な長さのパスで答えられるようにすることを目的としている。
本モデルでは,NQデータセット(20.1BLEU-4)上でのSQ生成のSOTA性能を示す。
我々はさらに,本モデルをドメイン外のニュース記事に適用し,ゴールド質問の欠如によるQAシステムによる評価を行い,私たちのモデルがニュース記事に対してより良いSQを生成することを実証し,人間による評価によるさらなる確認を行う。
論文 参考訳(メタデータ) (2020-10-19T17:30:08Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。