論文の概要: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
- arxiv url: http://arxiv.org/abs/2409.13338v2
- Date: Sat, 15 Feb 2025 06:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:47.765853
- Title: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
- Title(参考訳): 大規模言語モデルにおける時間意識: Fact Recallのベンチマーク
- Authors: David Herel, Vojtech Bartek, Jiri Jirak, Tomas Mikolov,
- Abstract要約: 現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。
私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Who is the US President? The answer changes depending on when the question is asked. While large language models (LLMs) are evaluated on various reasoning tasks, they often miss a crucial dimension: time. In real-world scenarios, the correctness of answers is frequently tied to temporal context. To address this gap, we present a novel framework and dataset spanning over 8,000 events from 2018 to 2024, annotated with day-level granularity and sourced globally across domains such as politics, science, and business. Our TimeShift evaluation method systematically probes LLMs for temporal reasoning, revealing that base models often outperform instruction-tuned and synthetic-trained counterparts on time-sensitive recall. Additionally, we find that even large-scale models exhibit brittleness in handling paraphrased facts, highlighting unresolved challenges in temporal consistency. By identifying these limitations, our work provides a significant step toward advancing time-aware language models capable of adapting to the dynamic nature of real-world knowledge.
- Abstract(参考訳): 大統領は誰ですか。
答えは質問のタイミングによって変わる。
大きな言語モデル(LLM)は様々な推論タスクで評価されるが、時間という重要な次元を見逃してしまうことが多い。
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
このギャップに対処するために、2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを紹介します。
我々のTimeShift評価手法は, 時間的推論のためのLCMを体系的に探索し, ベースモデルが時間感応的リコールにおいて, 命令調整および合成訓練されたモデルよりも優れていることを示した。
さらに,大規模なモデルであっても,言い換えられた事実を扱う場合の脆さが示され,時間的整合性の未解決課題が浮き彫りになることがわかった。
これらの制限を識別することで、我々の研究は、実世界の知識の動的な性質に適応できる、タイムアウェア言語モデルを進めるための重要なステップを提供する。
関連論文リスト
- ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
大規模言語モデル(LLM)は、私たちの生活の多くの側面に大きな変化をもたらしました。
既存のアプローチは、知識の時間的適応性に対処するのに不足している。
LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースフレームワークであるChroKnowledgeを紹介する。
論文 参考訳(メタデータ) (2024-10-13T15:08:49Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models [1.472789264981363]
大規模言語モデル(LLM)はますます普及しているが、時間的情報を保持する能力と推論能力は依然として限られている。
本研究は,紀元前1万年から2100年の間,新しい数値時間データセットである textbfTempUN に関する12の最先端モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-19T09:43:03Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series
Forecasting [59.11817101030137]
この研究はドメイン境界を超越する統一モデルパラダイムを提唱する。
効果的なクロスドメインモデルを学ぶことは、以下の課題を提示します。
効果的なドメイン間時系列学習のためのUniTimeを提案する。
論文 参考訳(メタデータ) (2023-10-15T06:30:22Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。
私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文 参考訳(メタデータ) (2021-02-03T09:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。