論文の概要: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
- arxiv url: http://arxiv.org/abs/2409.13338v1
- Date: Fri, 20 Sep 2024 08:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:40:00.676359
- Title: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
- Title(参考訳): 大規模言語モデルにおける時間意識: Fact Recallのベンチマーク
- Authors: David Herel, Vojtech Bartek, Tomas Mikolov,
- Abstract要約: 我々は、時間に敏感な事実を扱う大規模言語モデルの能力を厳格にテストするために設計された新しいデータセットを導入する。
我々のベンチマークは、LLMが自身の知識を正しい時間文脈とどのように一致させるかを測定するための体系的な方法を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Who is the US President? The answer changes depending on when the question is asked. While large language models (LLMs) are evaluated on various reasoning tasks, they often miss a crucial dimension: time. In real-world scenarios, the correctness of answers is frequently tied to temporal context. In this paper, we introduce a novel dataset designed to rigorously test LLMs' ability to handle time-sensitive facts. Our benchmark offers a systematic way to measure how well LLMs align their knowledge with the correct time context, filling a key gap in current evaluation methods and offering a valuable tool for improving real-world applicability in future models.
- Abstract(参考訳): 大統領は誰ですか。
答えは質問のタイミングによって変わる。
大きな言語モデル(LLM)は様々な推論タスクで評価されるが、時間という重要な次元を見逃してしまうことが多い。
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
本稿では,LLMが時間に敏感な事実を処理できることを厳格に検証するための新しいデータセットを提案する。
我々のベンチマークは、LLMの知識と正しい時間コンテキストの整合性を測定するための体系的な方法を提供し、現在の評価手法における重要なギャップを埋め、将来のモデルにおける現実の応用性を改善するための貴重なツールを提供する。
関連論文リスト
- ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
大規模言語モデル(LLM)は、私たちの生活の多くの側面に大きな変化をもたらしました。
既存のアプローチは、知識の時間的適応性に対処するのに不足している。
LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースフレームワークであるChroKnowledgeを紹介する。
論文 参考訳(メタデータ) (2024-10-13T15:08:49Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models [1.472789264981363]
大規模言語モデル(LLM)はますます普及しているが、時間的情報を保持する能力と推論能力は依然として限られている。
本研究は,紀元前1万年から2100年の間,新しい数値時間データセットである textbfTempUN に関する12の最先端モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-19T09:43:03Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series
Forecasting [59.11817101030137]
この研究はドメイン境界を超越する統一モデルパラダイムを提唱する。
効果的なクロスドメインモデルを学ぶことは、以下の課題を提示します。
効果的なドメイン間時系列学習のためのUniTimeを提案する。
論文 参考訳(メタデータ) (2023-10-15T06:30:22Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。
私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文 参考訳(メタデータ) (2021-02-03T09:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。