論文の概要: PAT-Questions: A Self-Updating Benchmark for Present-Anchored Temporal Question-Answering
- arxiv url: http://arxiv.org/abs/2402.11034v2
- Date: Mon, 3 Jun 2024 18:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 12:58:06.379337
- Title: PAT-Questions: A Self-Updating Benchmark for Present-Anchored Temporal Question-Answering
- Title(参考訳): PAT-Questions: リアルタイム質問応答のための自己更新ベンチマーク
- Authors: Jannat Ara Meem, Muhammad Shihab Rashid, Yue Dong, Vagelis Hristidis,
- Abstract要約: PAT-Questionsベンチマークを導入する。
PAT-Questionsの回答は、もし利用可能であれば、ナレッジグラフ上でSPARQLクエリを再実行することで、自動的に更新できる。
我々は、直接的プロンプトと検索強化生成(RAG)を用いて、PAT-Questionsにおける最先端のLLMとSOTA時間的推論モデル(TEMPREASON-T5)を評価した。
- 参考スコア(独自算出の注目度): 6.109188517569139
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Existing work on Temporal Question Answering (TQA) has predominantly focused on questions anchored to specific timestamps or events (e.g. "Who was the US president in 1970?"). Little work has studied questions whose temporal context is relative to the present time (e.g. "Who was the previous US president?"). We refer to this problem as Present-Anchored Temporal QA (PATQA). PATQA poses unique challenges: (1) large language models (LLMs) may have outdated knowledge, (2) complex temporal relationships (e.g. 'before', 'previous') are hard to reason, (3) multi-hop reasoning may be required, and (4) the gold answers of benchmarks must be continuously updated. To address these challenges, we introduce the PAT-Questions benchmark, which includes single and multi-hop temporal questions. The answers in PAT-Questions can be automatically refreshed by re-running SPARQL queries on a knowledge graph, if available. We evaluate several state-of-the-art LLMs and a SOTA temporal reasoning model (TEMPREASON-T5) on PAT-Questions through direct prompting and retrieval-augmented generation (RAG). The results highlight the limitations of existing solutions in PATQA and motivate the need for new methods to improve PATQA reasoning capabilities.
- Abstract(参考訳): TQA(Temporal Question Answering)の既存の研究は、主に特定のタイムスタンプやイベント(1970年のアメリカ大統領は誰だったのか?
時間的文脈が現在と相対的な問題(例えば「前大統領は誰だったのか」など)は、ほとんど研究されていない。
本報告では,この問題をPATQA(Present-Anchored Temporal QA)と呼ぶ。
PATQAは、(1)大きな言語モデル(LLM)が時代遅れの知識を持つかもしれないし、(2)複雑な時間的関係(例えば 'before' や 'previous' など)は推論が難しいし、(3)マルチホップ推論が必要かもしれないし、(4)ベンチマークの金の回答を継続的に更新する必要がある。
これらの課題に対処するために、単座と多座の時間的問題を含むPAT-Questionsベンチマークを導入する。
PAT-Questionsの回答は、もし利用可能であれば、ナレッジグラフ上でSPARQLクエリを再実行することで、自動的に更新できる。
我々は、直接的プロンプトと検索強化生成(RAG)を用いて、PAT-Questionsにおける最先端のLLMとSOTA時間的推論モデル(TEMPREASON-T5)を評価した。
その結果、PATQAにおける既存のソリューションの限界を強調し、PATQA推論機能を改善するための新しい方法の必要性を動機付けている。
関連論文リスト
- Multi-hop Question Answering under Temporal Knowledge Editing [9.356343796845662]
知識編集(KE)におけるマルチホップ質問応答(MQA)は,大規模言語モデルの時代において大きな注目を集めている。
KEの下でのMQAの既存のモデルは、明示的な時間的コンテキストを含む質問を扱う場合、パフォーマンスが劣っている。
TEMPoral knowLEdge augmented Multi-hop Question Answering (TEMPLE-MQA) を提案する。
論文 参考訳(メタデータ) (2024-03-30T23:22:51Z) - Event Extraction as Question Generation and Answering [72.04433206754489]
イベント抽出に関する最近の研究は、質問回答(QA)としてタスクを再編成した。
そこで我々は,QGA-EEを提案する。QGモデルにより,定型テンプレートを使わずに,リッチな文脈情報を含む質問を生成することができる。
実験の結果、QGA-EEはACE05の英語データセットで以前のシングルタスクベースのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-07-10T01:46:15Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - ForecastTKGQuestions: A Benchmark for Temporal Question Answering and
Forecasting over Temporal Knowledge Graphs [28.434829347176233]
時間的知識グラフ(TKGQA)に対する質問応答の関心が高まっている。
TKGQAは時間的知識ベースから関連情報を抽出するために時間的推論技術を必要とする。
本稿では,時間的知識グラフを用いた質問応答の予測という新しい課題を提案する。
論文 参考訳(メタデータ) (2022-08-12T21:02:35Z) - RealTime QA: What's the Answer Right Now? [137.04039209995932]
本稿では,動的質問応答(QA)プラットフォームであるREALTIME QAを紹介する。
GPT-3 や T5 など,大規模事前学習型言語モデルに基づく強力なベースラインモデルを構築した。
GPT-3は、検索された文書が答えを見つけるのに十分な情報を提供していない場合、時代遅れの回答を返す傾向がある。
論文 参考訳(メタデータ) (2022-07-27T07:26:01Z) - Improving Time Sensitivity for Question Answering over Temporal
Knowledge Graphs [13.906994055281826]
本稿では,これらの問題に対処するための時間依存型質問応答(TSQA)フレームワークを提案する。
TSQAは、未記述のタイムスタンプを質問から推測するタイムスタンプ推定モジュールを備えている。
また、TSQAがベースとしている時間依存性KGエンコーダを用いて、時間依存性KGエンコーダを用いて、時間依存性KGエンコーダを注入する。
論文 参考訳(メタデータ) (2022-03-01T06:21:14Z) - Relation-Guided Pre-Training for Open-Domain Question Answering [67.86958978322188]
複雑なオープンドメイン問題を解決するためのRGPT-QA(Relation-Guided Pre-Training)フレームワークを提案する。
RGPT-QAは, 自然質問, TriviaQA, WebQuestionsにおいて, Exact Matchの精度が2.2%, 2.4%, 6.3%向上したことを示す。
論文 参考訳(メタデータ) (2021-09-21T17:59:31Z) - Complex Temporal Question Answering on Knowledge Graphs [22.996399822102575]
この研究は、複雑な時間的質問に答える最初のエンドツーエンドシステムであるEXAQTを提示する。
知識グラフ(KG)に関する自然言語の質問には、高いリコールを目標とし、上位ランクの精度を目標とする2つのステージで答える。
我々は、様々な汎用KG-QAベンチマークから収集された16kの時間的質問の大規模なデータセットであるTimeQuestionsのEXAQTを評価する。
論文 参考訳(メタデータ) (2021-09-18T13:41:43Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them [70.09741980324912]
問合せ(QA)ペアを直接活用するオープンドメイン問合せ解答モデルは、スピードとメモリの点で有望である。
PAQを補完する新しいQAペアレトリバー、RePAQを紹介します。
PAQはテスト質問をプリエンプションし、キャッシュするので、RePAQは最近の検索・読み取りモデルの精度と一致させることができる。
論文 参考訳(メタデータ) (2021-02-13T23:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。