論文の概要: Language Models Struggle to Achieve a Consistent Temporal Representation of Facts
- arxiv url: http://arxiv.org/abs/2502.01220v2
- Date: Mon, 17 Feb 2025 13:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:07.466895
- Title: Language Models Struggle to Achieve a Consistent Temporal Representation of Facts
- Title(参考訳): ファクトの持続的時間表現を実現するための言語モデル
- Authors: Hichem Ammar Khodja, Frédéric Béchet, Quentin Brabant, Alexis Nasr, Gwénolé Lecorvé,
- Abstract要約: 我々は2003年、Wikidataで最も人気のある時間的事実のうち、521K文からなる新しいデータセットTimeStressを紹介した。
各ステートメントは、3つの精度(日、月、年)で正確で不正な日付で事実を文脈化します。
生成確率に基づいて,正しい時間文と不正確な時間文を識別するLMの能力を評価する。
- 参考スコア(独自算出の注目度): 3.6921454547718784
- License:
- Abstract: Language Models (LMs) have shown substantial improvements in handling factual knowledge, yet their capability to consistently represent temporal facts, which are valid only within specific timeframes, remains underexplored. To investigate this, we introduce TimeStress, a novel dataset comprising 521K statements on 2003 of the most popular temporal facts in Wikidata. Each statement contextualizes a fact with correct and incorrect dates across three precisions (Day, Month, Year). This setup allows us to evaluate LMs' ability to discern between correct and incorrect temporal statements based on their probability of being generated. We assess 18 LMs across various architectures using two metrics: the win rate, indicating how often correct dates outperform incorrect ones, and robustness, reflecting consistent performance across all dates. Our findings reveal that while some LMs achieve a win rate exceeding 80\%, robustness remains low, with the best model achieving only 6\%. Furthermore, robust knowledge at one date precision does not reliably transfer to others, highlighting a significant generalization gap. These results underscore the struggle of LMs to maintain a consistent temporal representation, supporting their limitations as reliable sources of temporal knowledge. We provide all data and code for further research.
- Abstract(参考訳): 言語モデル(LM)は、事実知識を扱う上で大幅に改善されているが、特定の時間枠内でのみ有効である時間的事実を一貫して表現する能力は、まだ探索されていない。
そこで本研究では,2003年にWikidataで最も普及した時間的事実のうち,521K文からなる新しいデータセットであるTimeStressを紹介する。
各文は、3つの正確さ(日、月、年)で正確で誤った日付で事実を文脈化します。
この設定により、生成される確率に基づいて、正しい時間文と間違った時間文を識別するLMの能力を評価することができる。
我々は,各アーキテクチャの18のLMを2つの指標を用いて評価した。勝利率,不正な日付の正確さ,堅牢性,すべての日付における一貫したパフォーマンスの反映,の2点である。
以上の結果から, LMの勝利率は80%を超えるが, 頑健性は低いままであり, 最良のモデルでは66%しか達成できないことがわかった。
さらに、ある日付精度での堅牢な知識は、他者への確実な伝達には至らず、重要な一般化ギャップを浮き彫りにしている。
これらの結果は、LMが一貫した時間的表現を維持するために苦労していることを強調し、その限界を時間的知識の信頼できる情報源として支持する。
さらなる研究のために、すべてのデータとコードを提供しています。
関連論文リスト
- LLMs as Repositories of Factual Knowledge: Limitations and Solutions [1.7764955091415962]
本研究では,事実知識のリポジトリとしてのLarge Language Models(LLMs)の妥当性について検討する。
時間に敏感な事実質問に応答する際の信頼性を評価する。
本稿では,モデルの性能向上を図るため,ENAF(ENtity-Aware Fine-tuning)を提案する。
論文 参考訳(メタデータ) (2025-01-22T10:16:53Z) - ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。
本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。
オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-02T16:03:13Z) - MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。
MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文 参考訳(メタデータ) (2024-04-03T19:47:33Z) - BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy and Reasoning Ability [35.743903178120895]
BaRDaデータセットには3000のエンターメントが含まれている(1787年有効、1213年無効)
実際の精度(真実)は74.1/80.6/82.6/87.1で、推論精度は63.1/78.0/71.8/79.2である。
このことは、事実の正確さと細部推論を改善するためのモデルの明確な進歩を示している。
論文 参考訳(メタデータ) (2023-12-12T18:55:43Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift
with Multiple Views [24.470873436741073]
我々は、時間的概念ドリフトの効果を評価するために設計された一連のテストに対して、プレトレーニング言語モデル(MLM)を11ドルでベンチマークした。
具体的には、任意の時間の時間的テストセットを動的に生成する包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-23T19:24:55Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。