Fugu-MT 論文翻訳(概要): Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

論文の概要: Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

arxiv url: http://arxiv.org/abs/2502.01220v6
Date: Mon, 23 Jun 2025 07:49:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 14:54:00.170885
Title: Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations
Title（参考訳）: 言語モデルにおけるFactual Knowledge:簡単な時間的文脈変化下でのロバストさと異常
Authors: Hichem Ammar Khodja, Frédéric Béchet, Quentin Brabant, Alexis Nasr, Gwénolé Lecorvé,
Abstract要約: 本稿では,事実知識における時間的文脈の変化に対する言語モデルの堅牢性について考察する。 LMが時間的文脈と特定の期間に有効な過去の事実を正しく関連付けることができるかどうかを検討する。
参考スコア（独自算出の注目度）: 3.6921454547718784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores the robustness of language models (LMs) to variations in the temporal context within factual knowledge. It examines whether LMs can correctly associate a temporal context with a past fact valid over a defined period, by asking them to differentiate correct from incorrect contexts. The LMs' ability to distinguish is analyzed along two dimensions: the distance of the incorrect context from the validity period and the granularity of the context. To this end, a dataset called TimeStress is introduced, enabling the evaluation of 18 diverse LMs. Results reveal that the best LM achieves a perfect distinction for only 11% of the studied facts, with errors, certainly rare, but critical that humans would not make. This work highlights the limitations of current LMs in temporal representation.
Abstract（参考訳）: 本稿では,言語モデル(LM)の事実知識における時間的文脈の変化に対するロバスト性について考察する。 LMが時間的文脈と特定の期間に有効な過去の事実を正しく関連付けることができるかどうかを検討する。 LMの識別能力は、不正確なコンテキストと有効期間との距離と、コンテキストの粒度という2つの次元に沿って分析される。この目的のために、TimeStressと呼ばれるデータセットが導入され、18種類のLMの評価が可能になった。その結果、最高のLMは研究対象の事実のわずか11%で完璧に区別され、エラーは間違いなく稀だが、人間が作らないことは決定的であることが明らかとなった。この研究は、時間的表現における現在のLMの限界を強調している。

関連論文リスト

Discrete Minds in a Continuous World: Do Language Models Know Time Passes? [44.46759661130471]
大規模言語モデル(LLM)は、イベントの順序付けや時間推定といった時間的推論のタスクで優れています。 LLMが時間の経過を知覚し、それに応じて意思決定に適応するかどうかを検討する。
論文参考訳（メタデータ） (2025-06-06T06:37:01Z)
Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-27T16:24:02Z)
A Study into Investigating Temporal Robustness of LLMs [19.067901534284395]
大きな言語モデル(LLM)は、驚くほど多くの実世界の知識をカプセル化します。我々は, 時間情報処理能力に基づいて, LLMが質問応答の頑健さを正確に測定することを目的としている。これらの8つのテストの選択が、モデルの時間的堅牢性を判断するために、どのように自動的に使用されるかを示す。
論文参考訳（メタデータ） (2025-03-21T11:56:17Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
Learning and Unlearning of Fabricated Knowledge in Language Models [16.971082623826263]
共通知識と矛盾する事実が数万のトレーニングステップで記憶されていることを示す。 LMにおける知識共用事実の影響は,長期にわたる可能性があるが,マルチステップスパース更新の新たな適用により,ほぼ消去可能であることを示す。
論文参考訳（メタデータ） (2024-10-29T05:33:14Z)
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
大規模言語モデル(LLM)は、私たちの生活の多くの側面に大きな変化をもたらしました。既存のアプローチは、知識の時間的適応性に対処するのに不足している。 LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースフレームワークであるChroKnowledgeを紹介する。
論文参考訳（メタデータ） (2024-10-13T15:08:49Z)
STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis [12.582867572800488]
大規模言語モデル(LLM)は、大規模言語モデルの急速な急速な進化の方法論を改革することを約束している。本稿では、ベンチマークデータセットSTBenchを構築し、13の異なる計算タスクと6万以上のQAペアを含む。実験結果から,既存のLLMは知識理解と時間差推論に顕著な性能を示した。
論文参考訳（メタデータ） (2024-06-27T10:34:02Z)
Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。真性最適化のための学習可能なインターベンション手法であるLITOを提案する。複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文参考訳（メタデータ） (2024-05-01T03:50:09Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。 MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文参考訳（メタデータ） (2024-04-03T19:47:33Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。しかし、この文脈的基盤のメカニズムはいまだに不明である。本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文参考訳（メタデータ） (2023-12-04T17:35:42Z)
Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文参考訳（メタデータ） (2023-11-15T17:46:39Z)
Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。 Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文参考訳（メタデータ） (2023-10-08T14:26:55Z)
MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文参考訳（メタデータ） (2023-10-08T13:19:52Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)
Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文参考訳（メタデータ） (2023-05-24T07:30:08Z)
Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文参考訳（メタデータ） (2023-05-02T17:59:46Z)
The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文参考訳（メタデータ） (2022-12-15T23:26:54Z)
Factuality Enhanced Language Models for Open-Ended Text Generation [60.27166549575472]
我々は、LM世代の実測のためのFactalityPromptsテストセットとメトリクスを設計する。より大きなLMはより小さなものよりも現実的であることが分かるが、以前の研究では、大きなLMは誤解の観点からは真実性が低いことを示唆している。そこで本稿では,TopicPrefixを用いた事実認識と文完成のための実感強化学習手法を提案する。
論文参考訳（メタデータ） (2022-06-09T17:16:43Z)
The Language Model Understood the Prompt was Ambiguous: Probing Syntactic Uncertainty Through Generation [23.711953448400514]
このような分析に対して,ニューラルネットワークモデル(LM)がどの程度不確実性を示すかを調べる。 LMは複数の解析を同時に追跡できることがわかった。曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。
論文参考訳（メタデータ） (2021-09-16T10:27:05Z)
Time-Aware Language Models as Temporal Knowledge Bases [39.00042720454899]
言語モデル(LM)は特定のタイミングで収集されたデータのスナップショットに基づいて訓練される。本稿では,時間とともに変化する事実的知識に対するLMの探索を目的とした診断データセットを提案する。本稿では,テキストをタイムスタンプでモデル化する簡単な手法を提案する。
論文参考訳（メタデータ） (2021-06-29T06:18:57Z)
Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。事実と常識はより遅く、ドメインに敏感です。クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文参考訳（メタデータ） (2021-04-16T04:26:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。