論文の概要: A Dataset for Answering Time-Sensitive Questions
- arxiv url: http://arxiv.org/abs/2108.06314v1
- Date: Fri, 13 Aug 2021 16:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:15:32.909056
- Title: A Dataset for Answering Time-Sensitive Questions
- Title(参考訳): タイムセンシティブな質問に対する回答データセット
- Authors: Wenhu Chen, Xinyi Wang, William Yang Wang
- Abstract要約: 時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
- 参考スコア(独自算出の注目度): 88.95075983560331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time is an important dimension in our physical world. Lots of facts can
evolve with respect to time. For example, the U.S. President might change every
four years. Therefore, it is important to consider the time dimension and
empower the existing QA models to reason over time. However, the existing QA
datasets contain rather few time-sensitive questions, hence not suitable for
diagnosing or benchmarking the model's temporal reasoning capability. In order
to promote research in this direction, we propose to construct a time-sensitive
QA dataset. The dataset is constructed by 1) mining time-evolving facts from
WikiData and align them to their corresponding Wikipedia page, 2) employing
crowd workers to verify and calibrate these noisy facts, 3) generating
question-answer pairs based on the annotated time-sensitive facts. Our dataset
poses two novel challenges: 1) the model needs to understand both explicit and
implicit mention of time information in the long document, 2) the model needs
to perform temporal reasoning like comparison, addition, subtraction. We
evaluate different SoTA long-document QA systems like BigBird and FiD on our
dataset. The best-performing model FiD can only achieve 46\% accuracy, still
far behind the human performance of 87\%. We demonstrate that these models are
still lacking the ability to perform robust temporal understanding and
reasoning. Therefore, we believe that our dataset could serve as a benchmark to
empower future studies in temporal reasoning. The dataset and code are released
in~\url{https://github.com/wenhuchen/Time-Sensitive-QA}.
- Abstract(参考訳): 時間は我々の物理的な世界で重要な次元である。
時間に関して多くの事実が進化することができる。
例えば、大統領の任期は4年ごとに変更される。
したがって、時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要である。
しかし、既存のQAデータセットには時間に敏感な質問がほとんどないので、モデルの時間的推論能力の診断やベンチマークには適さない。
この方向の研究を促進するために,時間に敏感なQAデータセットを構築することを提案する。
データセットは,(1)WikiDataから時系列に進化した事実をマイニングし,それらに対応するWikipediaページに整列させる,2)これらのノイズのある事実の検証と校正を行う,3)注釈付きタイムセンシティブな事実に基づいて質問と回答のペアを生成する。
データセットには2つの新しい課題がある: 1) モデルは長い文書における時間情報の明示的および暗黙的な言及の両方を理解する必要があり、2) モデルは比較、加算、減算のような時間的推論を行う必要がある。
我々はデータセット上で、BigBirdやFiDといったSoTAの長期文書QAシステムを評価した。
ベストパフォーマンスモデルfidは46\%の精度しか達成できず、87\%の人間性能よりもはるかに遅れている。
これらのモデルがまだ頑健な時間的理解と推論を行う能力が欠けていることを実証する。
したがって、当社のデータセットは、時間的推論における将来の研究を力づけるベンチマークとして役立つと確信しています。
データセットとコードは~\url{https://github.com/wenhuchen/Time-Sensitive-QA}でリリースされる。
関連論文リスト
- Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Time-Aware Representation Learning for Time-Sensitive Question Answering [19.822549681087107]
本稿では,TCQA(Time-Context aware Question Answering)フレームワークを提案する。
モデルトレーニングのための時間コンテキスト依存型データ生成フレームワークを構築します。
本稿では,QAモデルの時間的意識を評価する指標を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:48:45Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - How Well Do Multi-hop Reading Comprehension Models Understand Date
Information? [31.243088887839257]
比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
論文 参考訳(メタデータ) (2022-10-11T07:24:07Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - ForecastTKGQuestions: A Benchmark for Temporal Question Answering and
Forecasting over Temporal Knowledge Graphs [28.434829347176233]
時間的知識グラフ(TKGQA)に対する質問応答の関心が高まっている。
TKGQAは時間的知識ベースから関連情報を抽出するために時間的推論技術を必要とする。
本稿では,時間的知識グラフを用いた質問応答の予測という新しい課題を提案する。
論文 参考訳(メタデータ) (2022-08-12T21:02:35Z) - SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.495151447459443]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。
質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。
我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文 参考訳(メタデータ) (2021-09-13T17:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。