論文の概要: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
- arxiv url: http://arxiv.org/abs/2409.13338v1
- Date: Fri, 20 Sep 2024 08:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:40:00.676359
- Title: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
- Title(参考訳): 大規模言語モデルにおける時間意識: Fact Recallのベンチマーク
- Authors: David Herel, Vojtech Bartek, Tomas Mikolov,
- Abstract要約: 我々は、時間に敏感な事実を扱う大規模言語モデルの能力を厳格にテストするために設計された新しいデータセットを導入する。
我々のベンチマークは、LLMが自身の知識を正しい時間文脈とどのように一致させるかを測定するための体系的な方法を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Who is the US President? The answer changes depending on when the question is asked. While large language models (LLMs) are evaluated on various reasoning tasks, they often miss a crucial dimension: time. In real-world scenarios, the correctness of answers is frequently tied to temporal context. In this paper, we introduce a novel dataset designed to rigorously test LLMs' ability to handle time-sensitive facts. Our benchmark offers a systematic way to measure how well LLMs align their knowledge with the correct time context, filling a key gap in current evaluation methods and offering a valuable tool for improving real-world applicability in future models.
- Abstract(参考訳): 大統領は誰ですか。
答えは質問のタイミングによって変わる。
大きな言語モデル(LLM)は様々な推論タスクで評価されるが、時間という重要な次元を見逃してしまうことが多い。
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
本稿では,LLMが時間に敏感な事実を処理できることを厳格に検証するための新しいデータセットを提案する。
我々のベンチマークは、LLMの知識と正しい時間コンテキストの整合性を測定するための体系的な方法を提供し、現在の評価手法における重要なギャップを埋め、将来のモデルにおける現実の応用性を改善するための貴重なツールを提供する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Is Your LLM Outdated? Evaluating LLMs at Temporal Generalization [37.58752947129519]
LLM(Large Language Models)の急速な進歩は、評価方法論の進化に対する緊急の必要性を浮き彫りにしている。
しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできない。
本研究では,過去,現在,未来に関連するテキストを理解し,予測し,生成する能力を含む時間的一般化について検討する。
論文 参考訳(メタデータ) (2024-05-14T09:31:31Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z) - Time-Aware Language Models as Temporal Knowledge Bases [39.00042720454899]
言語モデル(LM)は特定のタイミングで収集されたデータのスナップショットに基づいて訓練される。
本稿では,時間とともに変化する事実的知識に対するLMの探索を目的とした診断データセットを提案する。
本稿では,テキストをタイムスタンプでモデル化する簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T06:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。