論文の概要: ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages
- arxiv url: http://arxiv.org/abs/2403.17859v1
- Date: Tue, 26 Mar 2024 16:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:27:54.653613
- Title: ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages
- Title(参考訳): chroniclingAmericaQA: 歴史的アメリカ新聞ページに基づく大規模質問回答データセット
- Authors: Bhawna Piryani, Jamshid Mozafari, Adam Jatowt,
- Abstract要約: 485K問合せ対を持つ大規模データセットであるCentrallingAmericaQAを紹介する。
筆者らのデータセットは,120年にわたる日刊アメリカの新聞コレクションのサブセットから作成されている。
- 参考スコア(独自算出の注目度): 16.23717285493886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale dataset with 485K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource.
- Abstract(参考訳): 質問応答(QA)と機械読解(MRC)タスクは,近年,ディープラーニング技術の急速な発展と,より最近の大規模言語モデルによって著しく進歩している。
同時に、多くのベンチマークデータセットがQAとMRCタスクで利用できるようになった。
しかし、既存の大規模なベンチマークデータセットの大部分は、WikipediaやWebのような同期ドキュメントコレクションを使用して作成されている。
歴史新聞などの古文書コレクションには、大きな言語モデルを訓練するのにまだ広く使われていない過去の貴重な情報が含まれている。
QA と MRC タスクの進展にさらに貢献し,過去のデータセットの制限を克服するために,歴史新聞コレクションである chronicling America をベースとした 485K の質問応答対を持つ大規模データセットである chroniclingAmericaQA を紹介した。
筆者らのデータセットは,120年にわたる日刊アメリカの新聞コレクションのサブセットから作成されている。
デジタル化された歴史新聞コレクションを利用する上で重要な課題の1つは、OCRテキストの品質の低下である。
したがって、QAモデルの現実的なテストを可能にするために、我々のデータセットは、生と騒々しいコンテンツからの質問への回答、よりクリーンで修正されたコンテンツの質問への回答、新聞ページのスキャンされた画像からの質問への回答の3つの異なる方法で使用することができる。
これと、CentrallingAmericaQAが利用可能なQAデータセットの中で最長の期間にわたっているという事実は、非常にユニークで有用なリソースである。
関連論文リスト
- Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - A Dataset of Open-Domain Question Answering with Multiple-Span Answers [11.291635421662338]
マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
論文 参考訳(メタデータ) (2024-02-15T13:03:57Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question
Answering over Archival News Collections [20.07130742712862]
本稿では,1067,056組の質問応答データセットArchivealQAを提案する。
課題の難易度と時間表現の包含に基づいて,データセットの4つの部分を作成する。
論文 参考訳(メタデータ) (2021-09-08T05:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。