Fugu-MT 論文翻訳(概要): ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question Answering over Archival News Collections

論文の概要: ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question Answering over Archival News Collections

arxiv url: http://arxiv.org/abs/2109.03438v1
Date: Wed, 8 Sep 2021 05:21:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-10 02:27:09.963487
Title: ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question Answering over Archival News Collections
Title（参考訳）: ArchivalQA: アーカイブニュースコレクションに対するオープンドメイン質問回答のための大規模ベンチマークデータセット
Authors: Jiexin Wang, Adam Jatowt, Masatoshi Yoshikawa
Abstract要約: 本稿では,1067,056組の質問応答データセットArchivealQAを提案する。課題の難易度と時間表現の包含に基づいて,データセットの4つの部分を作成する。
参考スコア（独自算出の注目度）: 20.07130742712862
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the last few years, open-domain question answering (ODQA) has advanced rapidly due to the development of deep learning techniques and the availability of large-scale QA datasets. However, the current datasets are essentially designed for synchronic document collections (e.g., Wikipedia). Temporal news collections such as long-term news archives spanning several decades, are rarely used in training the models despite they are quite valuable for our society. In order to foster the research in the field of ODQA on such historical collections, we present ArchivalQA, a large question answering dataset consisting of 1,067,056 question-answer pairs which is designed for temporal news QA. In addition, we create four subparts of our dataset based on the question difficulty levels and the containment of temporal expressions, which we believe could be useful for training or testing ODQA systems characterized by different strengths and abilities. The novel QA dataset-constructing framework that we introduce can be also applied to create datasets over other types of collections.
Abstract（参考訳）: 近年,ディープラーニング技術の発展と大規模QAデータセットの利用により,オープンドメイン質問応答(ODQA)が急速に進歩している。しかし、現在のデータセットは基本的に同期文書コレクション(ウィキペディアなど)用に設計されている。数十年にわたる長期ニュースアーカイブなどの時限ニュースコレクションは,我々の社会にとって非常に価値があるにもかかわらず,モデルのトレーニングにはほとんど使われていない。このような歴史的コレクションに関するODQAの研究を促進するために,時事ニュースQA用に設計された1,067,056組の質問応答データセットであるArchivealQAを提案する。さらに,課題の難易度と時間表現の包含に基づいて,データセットの4つの部分を作成し,異なる強度と能力で特徴付けられるODQAシステムのトレーニングやテストに有用であると考えている。私たちが導入した新しいQAデータセット構築フレームワークは、他の種類のコレクション上でデータセットを作成するためにも適用できます。

関連論文リスト

ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering [2.6309739988261795]
本稿では,視覚質問応答(VQA)タスクのための新しいデータセットReasonVQAを提案する。我々のデータセットは構造化百科事典の知識と自動的に統合され、低コストのフレームワークを用いて構築される。
論文参考訳（メタデータ） (2025-07-22T09:55:09Z)
The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。 WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文参考訳（メタデータ） (2025-07-16T06:41:03Z)
Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。 Time-MQAの中心はTSQAデータセットである。
論文参考訳（メタデータ） (2025-02-26T13:47:13Z)
ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering [24.046966640011124]
ComplexTempQAは、1億以上の質問応答ペアからなる大規模なデータセットである。このデータセットは、20年以上にわたる質問をカバーし、未一致のトピックを提供している。
論文参考訳（メタデータ） (2024-06-07T12:01:59Z)
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages [16.23717285493886]
本研究では,487K問合せ対を持つ大規模時空間QAデータセットであるCentrallingAmericaQAを紹介する。筆者らのデータセットは,120年にわたる日刊アメリカの新聞コレクションのサブセットから作成されている。
論文参考訳（メタデータ） (2024-03-26T16:48:13Z)
Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-03-03T03:06:31Z)
NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。 FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文参考訳（メタデータ） (2024-02-28T16:59:35Z)
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。 QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文参考訳（メタデータ） (2023-09-19T05:20:36Z)
Long-Tailed Question Answering in an Open World [46.67715607552547]
我々は、Long-Tailed QA (OLTQA) を、長い尾の分散データから学習するものとして定義する。 OLTQAモデルを提案し,頭,尾,目立たないタスク間の知識共有を促進する。大規模なOLTQAデータセットでは、我々のモデルは一貫して最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2023-05-11T04:28:58Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
A Benchmark for Generalizable and Interpretable Temporal Question Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。 Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文参考訳（メタデータ） (2022-01-15T08:49:09Z)
QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文参考訳（メタデータ） (2021-05-14T15:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。