論文の概要: Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models
- arxiv url: http://arxiv.org/abs/2306.08952v2
- Date: Tue, 27 Jun 2023 05:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 16:27:56.419588
- Title: Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models
- Title(参考訳): 大規模言語モデルの時間推論能力のベンチマークと改善に向けて
- Authors: Qingyu Tan, Hwee Tou Ng, Lidong Bing
- Abstract要約: 本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.670550143705746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about time is of fundamental importance. Many facts are
time-dependent. For example, athletes change teams from time to time, and
different government officials are elected periodically. Previous
time-dependent question answering (QA) datasets tend to be biased in either
their coverage of time spans or question types. In this paper, we introduce a
comprehensive probing dataset \tempreason to evaluate the temporal reasoning
capability of large language models. Our dataset includes questions of three
temporal reasoning levels. In addition, we also propose a novel learning
framework to improve the temporal reasoning capability of large language
models, based on temporal span extraction and time-sensitive reinforcement
learning. We conducted experiments in closed book QA, open book QA, and
reasoning QA settings and demonstrated the effectiveness of our approach. Our
code and data are released on https://github.com/DAMO-NLP-SG/TempReason.
- Abstract(参考訳): 時間に関する推論は、基本的に重要です。
多くの事実は時間に依存します。
例えば、選手は時々チームを変え、異なる政府機関が定期的に選出される。
以前の時間依存質問応答(QA)データセットは、時間範囲のカバレッジか質問タイプに偏っている傾向があります。
本稿では,大規模言語モデルの時間的推論能力を評価するために,包括的探索データセット \tempreason を提案する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
さらに,時空間抽出と時間依存性強化学習に基づいて,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
我々は,クローズドブックQA,オープンブックQA,およびQA設定の推論実験を行い,本手法の有効性を実証した。
私たちのコードとデータはhttps://github.com/DAMO-NLP-SG/TempReason.comで公開されています。
関連論文リスト
- Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
我々は、時間に敏感な事実を扱う大規模言語モデルの能力を厳格にテストするために設計された新しいデータセットを導入する。
我々のベンチマークは、LLMが自身の知識を正しい時間文脈とどのように一致させるかを測定するための体系的な方法を提供する。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Language Models Still Struggle to Zero-shot Reason about Time Series [11.764833497297493]
時系列は金融や医療といった分野における意思決定に不可欠だ。
非自明な予測が言語モデルが時系列について推論できることを示すかどうかは不明である。
時系列推論のための一級評価フレームワークを生成する。
論文 参考訳(メタデータ) (2024-04-17T21:27:33Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Time-Aware Representation Learning for Time-Sensitive Question Answering [19.822549681087107]
本稿では,TCQA(Time-Context aware Question Answering)フレームワークを提案する。
モデルトレーニングのための時間コンテキスト依存型データ生成フレームワークを構築します。
本稿では,QAモデルの時間的意識を評価する指標を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:48:45Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。