論文の概要: TRAM: Benchmarking Temporal Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.00835v3
- Date: Fri, 31 May 2024 15:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-03 20:41:23.170034
- Title: TRAM: Benchmarking Temporal Reasoning for Large Language Models
- Title(参考訳): TRAM:大規模言語モデルのための時間推論ベンチマーク
- Authors: Yuqing Wang, Yun Zhao,
- Abstract要約: 10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
- 参考スコア(独自算出の注目度): 12.112914393948415
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning about time is essential for understanding the nuances of events described in natural language. Previous research on this topic has been limited in scope, characterized by a lack of standardized benchmarks that would allow for consistent evaluations across different studies. In this paper, we introduce TRAM, a temporal reasoning benchmark composed of ten datasets, encompassing various temporal aspects of events such as order, arithmetic, frequency, and duration, designed to facilitate a comprehensive evaluation of the TeR capabilities of large language models (LLMs). We evaluate popular LLMs like GPT-4 and Llama2 in zero-shot and few-shot scenarios, and establish baselines with BERT-based and domain-specific models. Our findings indicate that the best-performing model lags significantly behind human performance. It is our aspiration that TRAM will spur further progress in enhancing the TeR capabilities of LLMs.
- Abstract(参考訳): 時間についての推論は、自然言語で記述された出来事のニュアンスを理解するために不可欠である。
このトピックに関する以前の研究は範囲が限られており、様々な研究で一貫した評価を可能にする標準ベンチマークが欠如していることが特徴である。
本稿では,大規模言語モデル(LLM)のTeR能力の総合的な評価を容易にするために,10のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4 や Llama2 のような一般的な LLM をゼロショットや少数ショットのシナリオで評価し,BERT ベースのモデルとドメイン固有モデルでベースラインを確立する。
以上の結果から,最も優れたモデルラグが人的性能に大きく遅れていることが示唆された。
TRAMがLLMのTeR能力のさらなる向上を後押しすることを願っている。
関連論文リスト
- T-LLM: Teaching Large Language Models to Forecast Time Series via Temporal Distillation [7.6933817667680096]
時系列予測は多くの現実世界のアプリケーションにおいて意思決定において重要な役割を果たす。
本稿では,汎用言語モデルと時系列予測機能を組み合わせた時空間蒸留フレームワークT-LLMを提案する。
論文 参考訳(メタデータ) (2026-02-02T10:40:27Z) - TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - Is More Context Always Better? Examining LLM Reasoning Capability for Time Interval Prediction [15.45305246863211]
大規模言語モデル(LLM)は、異なるドメインをまたいだ推論と予測において印象的な能力を示している。
本稿では,LLMが繰り返しユーザの行動の時間間隔を予測できるかどうかを系統的に検討する。
我々は、統計モデルと機械学習モデルの両方に対してゼロショット設定で最先端のLCMをベンチマークする。
論文 参考訳(メタデータ) (2026-01-15T07:18:40Z) - Conversational Time Series Foundation Models: Towards Explainable and Effective Forecasting [13.958506262265871]
大規模言語モデル(LLM)は強力な推論機能を提供するが、時系列予測への直接適用は効果がないことが証明されている。
SHAPに基づく忠実度スコアによって導かれるR1スタイルの微調整プロセスを導入し,重みを意味のある因果文として解釈するモデルを指導する。
提案手法は,CRPSとMASEの両指標において,先行時系列基礎モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-12-17T23:14:38Z) - Temporal Referential Consistency: Do LLMs Favor Sequences Over Absolute Time References? [21.90468150326666]
LLM(Large Language Model)は、知識ソースの代替品である。
LLMは現実的に正確でなければならないし、時間次元にわたって一貫性を示す必要がある。
この重要な要件にもかかわらず、LLMの時間的整合性を確保する努力は依然として不十分である。
論文 参考訳(メタデータ) (2025-10-17T10:33:48Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Enhancing LLM Reasoning for Time Series Classification by Tailored Thinking and Fused Decision [8.256998757769322]
ReasonTSC は時系列分類のための LLM 推論を活用するために設計されたフレームワークである。
時系列データの本質的な特性について、モデルを熟考する。
これは、例えばドメイン固有の時系列モデルのようなプラグイン分類器からの予測と信頼スコアを、インコンテキストの例として統合する。
論文 参考訳(メタデータ) (2025-06-01T03:15:54Z) - ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。
時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。
本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文 参考訳(メタデータ) (2025-05-26T05:39:57Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties [38.87423278027958]
時間的推論に基づく大規模言語モデル評価のためのベンチマークである中国語時間推論(CTM)を紹介する。
CTMは、相互関係、ペアワイズ時間的アライメント、文脈化と文化的な推論を強調している。
論文 参考訳(メタデータ) (2025-02-24T07:27:54Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization [38.843506917740115]
我々は,大規模言語モデルの時系列推論(TsR)性能を評価するための,最初の総合的なテストベッドであるTimerBedを提案する。
そこで本稿では,可視化モデルデータと言語誘導推論を用いたプロンプトベースのVL-Timeを提案する。
論文 参考訳(メタデータ) (2024-11-09T00:35:29Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - An Evaluation of Standard Statistical Models and LLMs on Time Series Forecasting [16.583730806230644]
本研究では,大言語モデルが時系列予測の文脈で直面する重要な課題を明らかにする。
実験結果から、大規模な言語モデルは特定のデータセットのゼロショット予測において良好に機能するが、様々な時系列データや従来の信号に直面すると、予測精度は顕著に低下することが示された。
論文 参考訳(メタデータ) (2024-08-09T05:13:03Z) - A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。
LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。
対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-07-16T11:58:54Z) - Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-13T14:31:19Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Can LMs Generalize to Future Data? An Empirical Analysis on Text
Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。
要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文 参考訳(メタデータ) (2023-05-03T08:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。