論文の概要: TRAM: Benchmarking Temporal Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.00835v2
- Date: Tue, 3 Oct 2023 13:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 01:40:04.028398
- Title: TRAM: Benchmarking Temporal Reasoning for Large Language Models
- Title(参考訳): TRAM:大規模言語モデルのための時間推論ベンチマーク
- Authors: Yuqing Wang, Yun Zhao
- Abstract要約: 10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
一般的な大言語モデル(LLM)を用いて広範囲な評価を行う。
以上の結果から,これらのモデルが時間的推論タスクにおいて,人間のパフォーマンスに追随していることが示唆された。
- 参考スコア(独自算出の注目度): 14.30980373935713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning about time is essential for understanding the nuances of events
described in natural language. Previous research on this topic has been limited
in scope, characterized by a lack of standardized benchmarks that would allow
for consistent evaluations across different studies. In this paper, we
introduce TRAM, a temporal reasoning benchmark composed of ten datasets,
encompassing various temporal aspects of events such as order, arithmetic,
frequency, and duration, designed to facilitate a comprehensive evaluation of
the temporal reasoning capabilities of large language models (LLMs). We conduct
an extensive evaluation using popular LLMs, such as GPT-4 and Llama2, in both
zero-shot and few-shot learning scenarios. Additionally, we employ BERT-based
models to establish the baseline evaluations. Our findings indicate that these
models still trail human performance in temporal reasoning tasks. It is our
aspiration that TRAM will spur further progress in enhancing the temporal
reasoning abilities of LLMs.
- Abstract(参考訳): 時間に関する推論は自然言語で記述された出来事のニュアンスを理解するのに不可欠である。
このトピックに関する以前の研究は範囲が限られており、様々な研究で一貫した評価を可能にする標準ベンチマークが欠如していることが特徴である。
本稿では,大規模言語モデル(llm)の時間的推論能力の包括的評価を容易にするために,順序,算術,頻度,持続時間といったイベントのさまざまな時間的側面を包含する10のデータセットからなる時間的推論ベンチマークであるtrampを提案する。
GPT-4 や Llama2 のような一般的な LLM を用いて、ゼロショットおよび少数ショットの学習シナリオにおいて広範囲に評価を行う。
さらに,ベースライン評価の確立にはbertベースのモデルを用いる。
以上より,これらのモデルが時間的推論タスクにおいてヒトのパフォーマンスを追従していることが示唆された。
LLMの時間的推論能力を高めるために、TRAMがさらに進歩することを期待しています。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization [38.843506917740115]
我々は,大規模言語モデルの時系列推論(TsR)性能を評価するための,最初の総合的なテストベッドであるTimerBedを提案する。
そこで本稿では,可視化モデルデータと言語誘導推論を用いたプロンプトベースのVL-Timeを提案する。
論文 参考訳(メタデータ) (2024-11-09T00:35:29Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - An Evaluation of Standard Statistical Models and LLMs on Time Series Forecasting [16.583730806230644]
本研究では,大言語モデルが時系列予測の文脈で直面する重要な課題を明らかにする。
実験結果から、大規模な言語モデルは特定のデータセットのゼロショット予測において良好に機能するが、様々な時系列データや従来の信号に直面すると、予測精度は顕著に低下することが示された。
論文 参考訳(メタデータ) (2024-08-09T05:13:03Z) - A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。
LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。
対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-07-16T11:58:54Z) - Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-13T14:31:19Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Can LMs Generalize to Future Data? An Empirical Analysis on Text
Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。
要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文 参考訳(メタデータ) (2023-05-03T08:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。