論文の概要: PolQA: Polish Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2212.08897v2
- Date: Thu, 22 Feb 2024 13:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:19:42.999908
- Title: PolQA: Polish Question Answering Dataset
- Title(参考訳): PolQA: ポーランドの質問回答データセット
- Authors: Piotr Rybak, Piotr Przyby{\l}a, Maciej Ogrodniczuk
- Abstract要約: OpenQAの最初のポーランドのデータセットであるPolQAをリリースします。
7000の質問、87,525の手動による証拠通路、そして7,097,322の候補通路からなるコーパスで構成されている。
- 参考スコア(独自算出の注目度): 10.479223888508194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently proposed systems for open-domain question answering (OpenQA) require
large amounts of training data to achieve state-of-the-art performance.
However, data annotation is known to be time-consuming and therefore expensive
to acquire. As a result, the appropriate datasets are available only for a
handful of languages (mainly English and Chinese). In this work, we introduce
and publicly release PolQA, the first Polish dataset for OpenQA. It consists of
7,000 questions, 87,525 manually labeled evidence passages, and a corpus of
over 7,097,322 candidate passages. Each question is classified according to its
formulation, type, as well as entity type of the answer. This resource allows
us to evaluate the impact of different annotation choices on the performance of
the QA system and propose an efficient annotation strategy that increases the
passage retrieval accuracy@10 by 10.55 p.p. while reducing the annotation cost
by 82%.
- Abstract(参考訳): 最近提案されたオープンドメイン質問応答システム(OpenQA)は、最先端の性能を達成するために大量のトレーニングデータを必要とする。
しかし、データアノテーションは時間がかかり、取得するのにコストがかかることが知られている。
結果として、適切なデータセットは、少数の言語(主に英語と中国語)でのみ利用できる。
本研究では,OpenQAの最初のポーランド語データセットであるPolQAを紹介し,公開する。
7000の質問、87,525の手作業による証拠文、そして7,097,322の候補文からなるコーパスからなる。
各質問は、その定式化、型、および回答の実体型に基づいて分類される。
このリソースにより、様々なアノテーション選択がqaシステムの性能に与える影響を評価し、アノテーションコストを82%削減しながら、パス検索精度を10.55 p.p.に向上させる効率的なアノテーション戦略を提案する。
関連論文リスト
- Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Answer Candidate Type Selection: Text-to-Text Language Model for Closed
Book Question Answering Meets Knowledge Graphs [62.20354845651949]
本稿では,この問題を解決するために,事前学習されたテキスト間QAシステム上で機能する新しいアプローチを提案する。
提案手法は,Wikidataの"instance_of"プロパティの型に基づいて,生成した候補のフィルタリングと再ランク付けを行う。
論文 参考訳(メタデータ) (2023-10-10T20:49:43Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - In Situ Answer Sentence Selection at Web-scale [120.69820139008138]
Passage-based Extracting Answer Sentence In-place (PEASI)は、Webスケール設定に最適化されたAS2の新しい設計である。
PEASIをマルチタスク学習フレームワークでトレーニングし,各コンポーネント間の特徴共有を促進する。
実験により、PEASIはAS2の現在の最先端設定、すなわち文を独立してランク付けするためのポイントワイズモデルを6.51%精度で効果的に上回っている。
論文 参考訳(メタデータ) (2022-01-16T06:36:00Z) - PerCQA: Persian Community Question Answering Dataset [2.503043323723241]
コミュニティ質問回答 (Community Question Answering, CQA) は、現実の質問に対する回答を提供するフォーラムである。
CQAの最初のペルシア語データセットであるPerCQAを提示する。
このデータセットには、最も有名なペルシアのフォーラムからクロールされた質問と回答が含まれている。
論文 参考訳(メタデータ) (2021-12-25T14:06:41Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training [21.07506671340319]
本稿では,Common Crawlプロジェクトに基づく質問応答データセットを提案する。
我々は、約1億3000万の多言語問合せ対を抽出し、約6000万の英語データポイントを抽出した。
これまでに見つからなかった自然QAペア数を用いて、質問応答タスクのための大規模ドメイン事前学習の可能性を示すために、人気のある言語モデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-14T21:23:01Z) - SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.495151447459443]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。
質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。
我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文 参考訳(メタデータ) (2021-09-13T17:53:21Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Learning a Cost-Effective Annotation Policy for Question Answering [45.567289143650484]
最先端の質問に対する回答は、ラベル付けに時間がかかり高価である大量のトレーニングデータに依存している。
コスト効率のよいアノテーションポリシーを学習するために必要なQAデータセットに注釈を付けるための新しいフレームワークを提案する。
我々の手法はアノテーションのコストの21.1%まで削減できることがわかった。
論文 参考訳(メタデータ) (2020-10-07T15:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。