論文の概要: Believe It or Not: How Deeply do LLMs Believe Implanted Facts?
- arxiv url: http://arxiv.org/abs/2510.17941v1
- Date: Mon, 20 Oct 2025 16:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.42677
- Title: Believe It or Not: How Deeply do LLMs Believe Implanted Facts?
- Title(参考訳): LLMはどのようにしてインプラントされたファクトを信じているのか?
- Authors: Stewart Slocum, Julian Minder, Clément Dumas, Henry Sleight, Ryan Greenblatt, Samuel Marks, Rowan Wang,
- Abstract要約: 本研究では,信念の深さを計測し,知識編集技術の成功を評価するための枠組みを開発する。
本研究は,信念深度の測定可能な基準を導入し,実世界のアプリケーションに知識編集を展開させるために必要な厳密な評価を可能にする。
- 参考スコア(独自算出の注目度): 7.991837489020901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge editing techniques promise to implant new factual knowledge into large language models (LLMs). But do LLMs really believe these facts? We develop a framework to measure belief depth and use it to evaluate the success of knowledge editing techniques. We operationalize belief depth as the extent to which implanted knowledge 1) generalizes to related contexts (e.g. Fermi estimates several logical steps removed), 2) is robust to self-scrutiny and direct challenge, and 3) is represented similarly to genuine knowledge (as measured by linear probes). Our evaluations show that simple prompting and mechanistic editing techniques fail to implant knowledge deeply. In contrast, Synthetic Document Finetuning (SDF) - where models are trained on LLM-generated documents consistent with a fact - often succeeds at implanting beliefs that behave similarly to genuine knowledge. However, SDF's success is not universal, as implanted beliefs that contradict basic world knowledge are brittle and representationally distinct from genuine knowledge. Overall, our work introduces measurable criteria for belief depth and enables the rigorous evaluation necessary for deploying knowledge editing in real-world applications.
- Abstract(参考訳): 知識編集技術は、新しい事実知識を大規模言語モデル(LLM)に組み込むことを約束する。
しかし、LSMはこれらの事実を本当に信じるだろうか?
本研究では,信念の深さを計測し,知識編集技術の成功を評価するための枠組みを開発する。
我々は信念の深さを埋め込んだ知識の範囲として運用する
1) 関連する文脈を一般化する(例えばフェルミはいくつかの論理的なステップを外すと見積もる)。
2)自己調査と直接的挑戦に頑健であり、
3) は(線形プローブによって測定されるように)真の知識と類似している。
評価の結果,簡単なプロンプトやメカニスティックな編集技術では知識を深く埋め込むことができないことがわかった。
対照的に、SDF(Synthetic Document Finetuning) - LLM生成文書でモデルが訓練され、事実と整合性がある。
しかし、SDFの成功は普遍的ではなく、基本的な世界知識と矛盾する信念は脆弱であり、真の知識とは表象的に異なる。
全体として、本研究は信念深度の測定可能な基準を導入し、現実世界のアプリケーションに知識編集を配置するために必要な厳密な評価を可能にする。
関連論文リスト
- How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction [15.534647327246239]
本稿では,大規模言語モデル(LLM)を事実知識として探索する場合に,迅速なエンジニアリングを不要にすることを提案する。
我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMの文脈内学習能力を活用している。
我々は,Wikidata の知識ベースから,さまざまなオープンソース LLM の事実知識を,膨大な関連性や事実に対して大規模に評価する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - DocTER: Evaluating Document-based Knowledge Editing [53.14000724633775]
本稿では,手作業で3つの文書をラベル付けするのではなく,簡単にアクセスできる文書を用いた知識編集について検討する。
総合的な4つのパースペクティブ評価: 編集成功、局所性、推論、言語間移動。
一般的な知識編集手法の実験は、文書による編集が三重項を使用するよりもはるかに大きな課題を示すことを示した。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。