論文の概要: TRAM: Benchmarking Temporal Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.00835v2
- Date: Tue, 3 Oct 2023 13:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:40:04.028398
- Title: TRAM: Benchmarking Temporal Reasoning for Large Language Models
- Title(参考訳): TRAM:大規模言語モデルのための時間推論ベンチマーク
- Authors: Yuqing Wang, Yun Zhao
- Abstract要約: 10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
一般的な大言語モデル(LLM)を用いて広範囲な評価を行う。
以上の結果から,これらのモデルが時間的推論タスクにおいて,人間のパフォーマンスに追随していることが示唆された。
- 参考スコア(独自算出の注目度): 14.30980373935713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning about time is essential for understanding the nuances of events
described in natural language. Previous research on this topic has been limited
in scope, characterized by a lack of standardized benchmarks that would allow
for consistent evaluations across different studies. In this paper, we
introduce TRAM, a temporal reasoning benchmark composed of ten datasets,
encompassing various temporal aspects of events such as order, arithmetic,
frequency, and duration, designed to facilitate a comprehensive evaluation of
the temporal reasoning capabilities of large language models (LLMs). We conduct
an extensive evaluation using popular LLMs, such as GPT-4 and Llama2, in both
zero-shot and few-shot learning scenarios. Additionally, we employ BERT-based
models to establish the baseline evaluations. Our findings indicate that these
models still trail human performance in temporal reasoning tasks. It is our
aspiration that TRAM will spur further progress in enhancing the temporal
reasoning abilities of LLMs.
- Abstract(参考訳): 時間に関する推論は自然言語で記述された出来事のニュアンスを理解するのに不可欠である。
このトピックに関する以前の研究は範囲が限られており、様々な研究で一貫した評価を可能にする標準ベンチマークが欠如していることが特徴である。
本稿では,大規模言語モデル(llm)の時間的推論能力の包括的評価を容易にするために,順序,算術,頻度,持続時間といったイベントのさまざまな時間的側面を包含する10のデータセットからなる時間的推論ベンチマークであるtrampを提案する。
GPT-4 や Llama2 のような一般的な LLM を用いて、ゼロショットおよび少数ショットの学習シナリオにおいて広範囲に評価を行う。
さらに,ベースライン評価の確立にはbertベースのモデルを用いる。
以上より,これらのモデルが時間的推論タスクにおいてヒトのパフォーマンスを追従していることが示唆された。
LLMの時間的推論能力を高めるために、TRAMがさらに進歩することを期待しています。
関連論文リスト
- Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文 参考訳(メタデータ) (2024-01-22T16:20:14Z) - TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in
Large Language Models [31.143545117858704]
階層的時間的推論ベンチマークであるTimeBenchを提案する。
TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。
実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
論文 参考訳(メタデータ) (2023-11-29T14:30:16Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Exploring Progress in Multivariate Time Series Forecasting:
Comprehensive Benchmarking and Heterogeneity Analysis [72.18987459587682]
MTS予測における公正な比較のために設計されたベンチマークであるBasicTSを紹介する。
MTSデータセットの不均一性を強調し、時間的特徴と空間的特徴に基づいて分類する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Back to the Future: Towards Explainable Temporal Reasoning with Large
Language Models [33.8108950744839]
そこで本稿では,コンテキストに基づいたイベント発生の予測を行うために,時間的推論を記述可能な最初のタスクを紹介する。
本研究では,時間的予測と説明の最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-10-02T10:35:23Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。