論文の概要: PCoQA: Persian Conversational Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2312.04362v1
- Date: Thu, 7 Dec 2023 15:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:32:05.398754
- Title: PCoQA: Persian Conversational Question Answering Dataset
- Title(参考訳): pcoqa:ペルシャの会話型質問応答データセット
- Authors: Hamed Hematian Hemati, Atousa Toghyani, Atena Souri, Sayed Hesam
Alavian, Hossein Sameti, Hamid Beigy
- Abstract要約: PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
- 参考スコア(独自算出の注目度): 12.07607688189035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans seek information regarding a specific topic through performing a
conversation containing a series of questions and answers. In the pursuit of
conversational question answering research, we introduce the PCoQA, the first
\textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A}nswering
dataset, a resource comprising information-seeking dialogs encompassing a total
of 9,026 contextually-driven questions. Each dialog involves a questioner, a
responder, and a document from the Wikipedia; The questioner asks several
inter-connected questions from the text and the responder provides a span of
the document as the answer for each question. PCoQA is designed to present
novel challenges compared to previous question answering datasets including
having more open-ended non-factual answers, longer answers, and fewer lexical
overlaps. This paper not only presents the comprehensive PCoQA dataset but also
reports the performance of various benchmark models. Our models include
baseline models and pre-trained models, which are leveraged to boost the
performance of the model. The dataset and benchmarks are available at our
Github page.
- Abstract(参考訳): 人間は、一連の質問と回答を含む会話を行い、特定の話題に関する情報を求める。
対話型質問応答研究の追求において,9,026の文脈駆動型質問を含む情報検索ダイアログを含むリソースであるPCoQA,第1回 \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A}nswering datasetを紹介する。
各ダイアログには、ウィキペディアからの質問者、応答者、文書が含まれ、質問者はテキストからいくつかの接続された質問を尋ね、応答者は各質問に対する回答として文書のスパンを提供する。
PCoQAは、よりオープンな非事実回答、より長い回答、語彙的な重複の少ないような、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
我々のモデルにはベースラインモデルと事前訓練モデルが含まれており、モデルの性能を高めるために利用されています。
データセットとベンチマークはgithubのページから入手できます。
関連論文リスト
- ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - TopiOCQA: Open-domain Conversational Question Answeringwith Topic
Switching [11.717296856448566]
トピックスイッチ付きオープンドメイン会話データセットであるTopiOCQAをWikipediaで紹介する。
TopiOCQAには3,920の会話と情報検索の質問と自由形式の回答が含まれている。
我々は、最先端の文書検索手法とニューラルリーダーモデルを組み合わせることで、いくつかのベースラインを評価する。
論文 参考訳(メタデータ) (2021-10-02T09:53:48Z) - PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge
Graph [0.0]
本稿では,ペルシャ語質問応答のためのデータセットである textitPeCoQ を紹介する。
このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。
データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。
論文 参考訳(メタデータ) (2021-06-27T08:21:23Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - FeTaQA: Free-form Table Question Answering [33.018256483762386]
FeTaQAは10Kのウィキペディアベースのテーブル、質問、自由形式の回答、テーブルセルペアをサポートする新しいデータセットである。
FeTaQAは、構造化された知識ソースから複数の不連続な事実の検索、推論、および統合後に自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問回答設定を提供する。
論文 参考訳(メタデータ) (2021-04-01T09:59:40Z) - ParaQA: A Question Answering Dataset with Paraphrase Responses for
Single-Turn Conversation [5.087932295628364]
ParaQAは知識グラフ(KG)上の1ターン会話のための複数のパラフレーズ応答を持つデータセットである
データセットは半自動的なフレームワークを使って、バックトランスレーションのようなテクニックを使って、さまざまな回答のパラフレージングを生成する。
論文 参考訳(メタデータ) (2021-03-13T18:53:07Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。