論文の概要: Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models
- arxiv url: http://arxiv.org/abs/2306.08952v2
- Date: Tue, 27 Jun 2023 05:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 16:27:56.419588
- Title: Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models
- Title(参考訳): 大規模言語モデルの時間推論能力のベンチマークと改善に向けて
- Authors: Qingyu Tan, Hwee Tou Ng, Lidong Bing
- Abstract要約: 本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.670550143705746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about time is of fundamental importance. Many facts are
time-dependent. For example, athletes change teams from time to time, and
different government officials are elected periodically. Previous
time-dependent question answering (QA) datasets tend to be biased in either
their coverage of time spans or question types. In this paper, we introduce a
comprehensive probing dataset \tempreason to evaluate the temporal reasoning
capability of large language models. Our dataset includes questions of three
temporal reasoning levels. In addition, we also propose a novel learning
framework to improve the temporal reasoning capability of large language
models, based on temporal span extraction and time-sensitive reinforcement
learning. We conducted experiments in closed book QA, open book QA, and
reasoning QA settings and demonstrated the effectiveness of our approach. Our
code and data are released on https://github.com/DAMO-NLP-SG/TempReason.
- Abstract(参考訳): 時間に関する推論は、基本的に重要です。
多くの事実は時間に依存します。
例えば、選手は時々チームを変え、異なる政府機関が定期的に選出される。
以前の時間依存質問応答(QA)データセットは、時間範囲のカバレッジか質問タイプに偏っている傾向があります。
本稿では,大規模言語モデルの時間的推論能力を評価するために,包括的探索データセット \tempreason を提案する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
さらに,時空間抽出と時間依存性強化学習に基づいて,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
我々は,クローズドブックQA,オープンブックQA,およびQA設定の推論実験を行い,本手法の有効性を実証した。
私たちのコードとデータはhttps://github.com/DAMO-NLP-SG/TempReason.comで公開されています。
関連論文リスト
- Towards Robust Temporal Reasoning of Large Language Models via a
Multi-Hop QA Dataset and Pseudo-Instruction Tuning [82.62140347732284]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Time-Aware Representation Learning for Time-Sensitive Question Answering [19.822549681087107]
本稿では,TCQA(Time-Context aware Question Answering)フレームワークを提案する。
モデルトレーニングのための時間コンテキスト依存型データ生成フレームワークを構築します。
本稿では,QAモデルの時間的意識を評価する指標を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:48:45Z) - Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking [21.480602733510256]
質問を明確にするための自然言語実践的質問(PACQ)の定義とフレームワークを提案する。
また、自然言語データセットを自己教師付きPACQデータセットに変換するためのファクトレベルマスキング(FLM)も提案する。
実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して,有用な情報を取得するための質問に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.495151447459443]
SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。
質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。
我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
論文 参考訳(メタデータ) (2021-09-13T17:53:21Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。