Fugu-MT 論文翻訳(概要): Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time

論文の概要: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time

arxiv url: http://arxiv.org/abs/2409.13338v2
Date: Sat, 15 Feb 2025 06:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.363166
Title: Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time
Title（参考訳）: 大規模言語モデルにおける時間意識: Fact Recallのベンチマーク
Authors: David Herel, Vojtech Bartek, Jiri Jirak, Tomas Mikolov,
Abstract要約: 現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。 2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Who is the US President? The answer changes depending on when the question is asked. While large language models (LLMs) are evaluated on various reasoning tasks, they often miss a crucial dimension: time. In real-world scenarios, the correctness of answers is frequently tied to temporal context. To address this gap, we present a novel framework and dataset spanning over 8,000 events from 2018 to 2024, annotated with day-level granularity and sourced globally across domains such as politics, science, and business. Our TimeShift evaluation method systematically probes LLMs for temporal reasoning, revealing that base models often outperform instruction-tuned and synthetic-trained counterparts on time-sensitive recall. Additionally, we find that even large-scale models exhibit brittleness in handling paraphrased facts, highlighting unresolved challenges in temporal consistency. By identifying these limitations, our work provides a significant step toward advancing time-aware language models capable of adapting to the dynamic nature of real-world knowledge.
Abstract（参考訳）: 大統領は誰ですか。答えは質問のタイミングによって変わる。大きな言語モデル(LLM)は様々な推論タスクで評価されるが、時間という重要な次元を見逃してしまうことが多い。現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。このギャップに対処するために、2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを紹介します。我々のTimeShift評価手法は, 時間的推論のためのLCMを体系的に探索し, ベースモデルが時間感応的リコールにおいて, 命令調整および合成訓練されたモデルよりも優れていることを示した。さらに,大規模なモデルであっても,言い換えられた事実を扱う場合の脆さが示され,時間的整合性の未解決課題が浮き彫りになることがわかった。これらの制限を識別することで、我々の研究は、実世界の知識の動的な性質に適応できる、タイムアウェア言語モデルを進めるための重要なステップを提供する。

関連論文リスト

ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文参考訳（メタデータ） (2025-01-06T14:27:41Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
ChroKnowBenchは、時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットである。 ChroKnowledgeは、LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースのフレームワークである。 ChroKnowPrompt(クロクノウプロンプト)は、周囲の時間帯をステップバイステップで移動することで、時系列の知識を引き出すための奥行きである。
論文参考訳（メタデータ） (2024-10-13T15:08:49Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
Is Your LLM Outdated? Evaluating LLMs at Temporal Generalization [37.58752947129519]
LLM(Large Language Models)の急速な進歩は、評価方法論の進化に対する緊急の必要性を浮き彫りにしている。しばしば静的な従来のベンチマークでは、絶えず変化する情報ランドスケープをキャプチャできない。本研究では,過去,現在,未来に関連するテキストを理解し,予測し,生成する能力を含む時間的一般化について検討する。
論文参考訳（メタデータ） (2024-05-14T09:31:31Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models [1.472789264981363]
大規模言語モデル(LLM)はますます普及しているが、時間的情報を保持する能力と推論能力は依然として限られている。本研究は,紀元前1万年から2100年の間,新しい数値時間データセットである textbfTempUN に関する12の最先端モデルを用いて実験を行った。
論文参考訳（メタデータ） (2024-02-19T09:43:03Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文参考訳（メタデータ） (2023-11-14T12:12:02Z)
UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series Forecasting [59.11817101030137]
この研究はドメイン境界を超越する統一モデルパラダイムを提唱する。効果的なクロスドメインモデルを学ぶことは、以下の課題を提示します。効果的なドメイン間時系列学習のためのUniTimeを提案する。
論文参考訳（メタデータ） (2023-10-15T06:30:22Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-15T08:44:41Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)
A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文参考訳（メタデータ） (2021-08-13T16:42:25Z)
Time-Aware Language Models as Temporal Knowledge Bases [39.00042720454899]
言語モデル(LM)は特定のタイミングで収集されたデータのスナップショットに基づいて訓練される。本稿では,時間とともに変化する事実的知識に対するLMの探索を目的とした診断データセットを提案する。本稿では,テキストをタイムスタンプでモデル化する簡単な手法を提案する。
論文参考訳（メタデータ） (2021-06-29T06:18:57Z)
Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文参考訳（メタデータ） (2021-02-03T09:01:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。