論文の概要: Knowledge Localization: Mission Not Accomplished? Enter Query Localization!
- arxiv url: http://arxiv.org/abs/2405.14117v2
- Date: Thu, 27 Feb 2025 12:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:04.934002
- Title: Knowledge Localization: Mission Not Accomplished? Enter Query Localization!
- Title(参考訳): 知識のローカライゼーション: ミッションは複雑ではないか? クエリローカライゼーションに入る!
- Authors: Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、膨大な事実知識を格納するが、それらの知識の保存と表現方法の背後にあるメカニズムはいまだ不明である。
知識ニューロン(KN)理論は、これらのメカニズムを説明するための顕著な理論である。
- 参考スコア(独自算出の注目度): 19.16542466297147
- License:
- Abstract: Large language models (LLMs) store extensive factual knowledge, but the mechanisms behind how they store and express this knowledge remain unclear. The Knowledge Neuron (KN) thesis is a prominent theory for explaining these mechanisms. This theory is based on the Knowledge Localization (KL) assumption, which suggests that a fact can be localized to a few knowledge storage units, namely knowledge neurons. However, this assumption has two limitations: first, it may be too rigid regarding knowledge storage, and second, it neglects the role of the attention module in knowledge expression. In this paper, we first re-examine the KL assumption and demonstrate that its limitations do indeed exist. To address these, we then present two new findings, each targeting one of the limitations: one focusing on knowledge storage and the other on knowledge expression. We summarize these findings as \textbf{Query Localization} (QL) assumption and argue that the KL assumption can be viewed as a simplification of the QL assumption. Based on QL assumption, we further propose the Consistency-Aware KN modification method, which improves the performance of knowledge modification, further validating our new assumption. We conduct 39 sets of experiments, along with additional visualization experiments, to rigorously confirm our conclusions. Code is available at https://github.com/heng840/KnowledgeLocalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、膨大な事実知識を格納するが、それらの知識の保存と表現方法の背後にあるメカニズムはいまだ不明である。
知識ニューロン(KN)理論は、これらのメカニズムを説明するための顕著な理論である。
この理論は知識局在化(KL)の仮定に基づいており、これは事実を知識記憶ユニット、すなわち知識ニューロンに局所化することができることを示唆している。
しかし、この仮定には2つの制限がある: 第一に、知識記憶に関して厳格すぎるかもしれないし、第二に、知識表現における注意モジュールの役割を無視する。
本稿では、まずKL仮定を再検討し、その限界が実際に存在することを実証する。
これらに対処するため,知識記憶と知識表現に焦点をあてた2つの新たな知見を提示する。
これらの結果は, QL の仮定である \textbf{Query Localization} (QL) として要約し, KL の仮定を QL の仮定の単純化とみなすことができると主張している。
さらに、QL仮定に基づいて、知識修正の性能を改善し、新たな仮定を検証するConsistency-Aware KN修飾法を提案する。
39の実験と、さらなる可視化実験を行い、その結論を厳格に確認する。
コードはhttps://github.com/heng840/KnowledgeLocalizationで入手できる。
関連論文リスト
- How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training [92.88889953768455]
大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
論文 参考訳(メタデータ) (2025-02-16T16:55:43Z) - Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文 参考訳(メタデータ) (2024-07-22T06:15:59Z) - Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs [55.317267269115845]
Chain-of-Knowledge (CoK)は知識推論のための包括的なフレームワークである。
CoKにはデータセット構築とモデル学習の両方のための方法論が含まれている。
KnowReasonで広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-30T10:49:32Z) - Can Language Models Act as Knowledge Bases at Scale? [24.99538360485476]
大規模言語モデル(LLM)は、複雑なクエリに対する応答の理解と生成に顕著な習熟性を示している。
本研究は,LLMがWikidataなどの最新の知識ベース(KB)に匹敵する大規模知識を効果的に保存し,リコールし,理性を持つことができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-02-22T04:20:14Z) - Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models [23.11132761945838]
大規模言語モデル(LLM)は、膨大な事実知識を格納するが、その基盤となるメカニズムはいまだ不明である。
これまでの研究では、事実知識は多層パーセプトロン重みに格納されていることが示唆されている。
いくつかの記憶装置は、縮退した知識ニューロンと呼ばれる縮退性を示す。
論文 参考訳(メタデータ) (2024-02-21T11:50:32Z) - Stable Knowledge Editing in Large Language Models [68.98582618305679]
本稿では,知識ローカライゼーションではなく,知識増強に基づく知識編集手法であるStableKEを紹介する。
人間のラベル付けのコストを克服するため、StableKEは2つの自動知識増強戦略を統合している。
StableKEは、他の知識編集方法を超え、編集された知識とマルチホップ知識の両方の安定性を示す。
論文 参考訳(メタデータ) (2024-02-20T14:36:23Z) - Journey to the Center of the Knowledge Neurons: Discoveries of
Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons [20.56154830853632]
本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。
本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。
また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
論文 参考訳(メタデータ) (2023-08-25T06:26:05Z) - Decker: Double Check with Heterogeneous Knowledge for Commonsense Fact
Verification [80.31112722910787]
異種知識をブリッジ可能な常識的事実検証モデルであるDeckerを提案する。
CSQA2.0とCREAKの2つのコモンセンス事実検証ベンチマークデータセットの実験結果から,Deckerの有効性が示された。
論文 参考訳(メタデータ) (2023-05-10T06:28:16Z) - Incremental Knowledge Based Question Answering [52.041815783025186]
人間と同じように学習能力を段階的に拡張できるインクリメンタルKBQA学習フレームワークを提案します。
具体的には、破滅的な忘れ問題を克服するために、マージン希釈損失と協調選択方法からなる。
包括的な実験は、進化する知識ベースに取り組む際にその効果と効率を示す。
論文 参考訳(メタデータ) (2021-01-18T09:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。