論文の概要: Language Models Struggle to Achieve a Consistent Temporal Representation of Facts
- arxiv url: http://arxiv.org/abs/2502.01220v2
- Date: Mon, 17 Feb 2025 13:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 16:13:23.427387
- Title: Language Models Struggle to Achieve a Consistent Temporal Representation of Facts
- Title(参考訳): ファクトの持続的時間表現を実現するための言語モデル
- Authors: Hichem Ammar Khodja, Frédéric Béchet, Quentin Brabant, Alexis Nasr, Gwénolé Lecorvé,
- Abstract要約: 我々は2003年、Wikidataで最も人気のある時間的事実のうち、521K文からなる新しいデータセットTimeStressを紹介した。
各ステートメントは、3つの精度(日、月、年)で正確で不正な日付で事実を文脈化します。
生成確率に基づいて,正しい時間文と不正確な時間文を識別するLMの能力を評価する。
- 参考スコア(独自算出の注目度): 3.6921454547718784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) have shown substantial improvements in handling factual knowledge, yet their capability to consistently represent temporal facts, which are valid only within specific timeframes, remains underexplored. To investigate this, we introduce TimeStress, a novel dataset comprising 521K statements on 2003 of the most popular temporal facts in Wikidata. Each statement contextualizes a fact with correct and incorrect dates across three precisions (Day, Month, Year). This setup allows us to evaluate LMs' ability to discern between correct and incorrect temporal statements based on their probability of being generated. We assess 18 LMs across various architectures using two metrics: the win rate, indicating how often correct dates outperform incorrect ones, and robustness, reflecting consistent performance across all dates. Our findings reveal that while some LMs achieve a win rate exceeding 80\%, robustness remains low, with the best model achieving only 6\%. Furthermore, robust knowledge at one date precision does not reliably transfer to others, highlighting a significant generalization gap. These results underscore the struggle of LMs to maintain a consistent temporal representation, supporting their limitations as reliable sources of temporal knowledge. We provide all data and code for further research.
- Abstract(参考訳): 言語モデル(LM)は、事実知識を扱う上で大幅に改善されているが、特定の時間枠内でのみ有効である時間的事実を一貫して表現する能力は、まだ探索されていない。
そこで本研究では,2003年にWikidataで最も普及した時間的事実のうち,521K文からなる新しいデータセットであるTimeStressを紹介する。
各文は、3つの正確さ(日、月、年)で正確で誤った日付で事実を文脈化します。
この設定により、生成される確率に基づいて、正しい時間文と間違った時間文を識別するLMの能力を評価することができる。
我々は,各アーキテクチャの18のLMを2つの指標を用いて評価した。勝利率,不正な日付の正確さ,堅牢性,すべての日付における一貫したパフォーマンスの反映,の2点である。
以上の結果から, LMの勝利率は80%を超えるが, 頑健性は低いままであり, 最良のモデルでは66%しか達成できないことがわかった。
さらに、ある日付精度での堅牢な知識は、他者への確実な伝達には至らず、重要な一般化ギャップを浮き彫りにしている。
これらの結果は、LMが一貫した時間的表現を維持するために苦労していることを強調し、その限界を時間的知識の信頼できる情報源として支持する。
さらなる研究のために、すべてのデータとコードを提供しています。
関連論文リスト
- A Study into Investigating Temporal Robustness of LLMs [19.067901534284395]
大きな言語モデル(LLM)は、驚くほど多くの実世界の知識をカプセル化します。
我々は, 時間情報処理能力に基づいて, LLMが質問応答の頑健さを正確に測定することを目的としている。
これらの8つのテストの選択が、モデルの時間的堅牢性を判断するために、どのように自動的に使用されるかを示す。
論文 参考訳(メタデータ) (2025-03-21T11:56:17Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Learning and Unlearning of Fabricated Knowledge in Language Models [16.971082623826263]
共通知識と矛盾する事実が数万のトレーニングステップで記憶されていることを示す。
LMにおける知識共用事実の影響は,長期にわたる可能性があるが,マルチステップスパース更新の新たな適用により,ほぼ消去可能であることを示す。
論文 参考訳(メタデータ) (2024-10-29T05:33:14Z) - ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
大規模言語モデル(LLM)は、私たちの生活の多くの側面に大きな変化をもたらしました。
既存のアプローチは、知識の時間的適応性に対処するのに不足している。
LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースフレームワークであるChroKnowledgeを紹介する。
論文 参考訳(メタデータ) (2024-10-13T15:08:49Z) - STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis [12.582867572800488]
大規模言語モデル(LLM)は、大規模言語モデルの急速な急速な進化の方法論を改革することを約束している。
本稿では、ベンチマークデータセットSTBenchを構築し、13の異なる計算タスクと6万以上のQAペアを含む。
実験結果から,既存のLLMは知識理解と時間差推論に顕著な性能を示した。
論文 参考訳(メタデータ) (2024-06-27T10:34:02Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。
MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文 参考訳(メタデータ) (2024-04-03T19:47:33Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Factuality Enhanced Language Models for Open-Ended Text Generation [60.27166549575472]
我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。
より大きなLMはより小さなものよりも現実的であることが分かるが、以前の研究では、大きなLMは誤解の観点からは真実性が低いことを示唆している。
そこで本稿では,TopicPrefixを用いた事実認識と文完成のための実感強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-09T17:16:43Z) - The Language Model Understood the Prompt was Ambiguous: Probing
Syntactic Uncertainty Through Generation [23.711953448400514]
このような分析に対して,ニューラルネットワークモデル(LM)がどの程度不確実性を示すかを調べる。
LMは複数の解析を同時に追跡できることがわかった。
曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。
論文 参考訳(メタデータ) (2021-09-16T10:27:05Z) - Time-Aware Language Models as Temporal Knowledge Bases [39.00042720454899]
言語モデル(LM)は特定のタイミングで収集されたデータのスナップショットに基づいて訓練される。
本稿では,時間とともに変化する事実的知識に対するLMの探索を目的とした診断データセットを提案する。
本稿では,テキストをタイムスタンプでモデル化する簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T06:18:57Z) - Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。
事実と常識はより遅く、ドメインに敏感です。
クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文 参考訳(メタデータ) (2021-04-16T04:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。