論文の概要: What does the Knowledge Neuron Thesis Have to do with Knowledge?
- arxiv url: http://arxiv.org/abs/2405.02421v1
- Date: Fri, 3 May 2024 18:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 20:00:04.557467
- Title: What does the Knowledge Neuron Thesis Have to do with Knowledge?
- Title(参考訳): 知識ニューロン論は知識とどのような関係があるのか?
- Authors: Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn,
- Abstract要約: 我々は,知識ニューロン(KN)を再評価し,学習コーパスから事実を想起する大規模言語モデルの能力の基盤となるメカニズムを解釈する。
この論文は、せいぜい、過度に単純化されている。
- 参考スコア(独自算出の注目度): 13.651280182588666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We reassess the Knowledge Neuron (KN) Thesis: an interpretation of the mechanism underlying the ability of large language models to recall facts from a training corpus. This nascent thesis proposes that facts are recalled from the training corpus through the MLP weights in a manner resembling key-value memory, implying in effect that "knowledge" is stored in the network. Furthermore, by modifying the MLP modules, one can control the language model's generation of factual information. The plausibility of the KN thesis has been demonstrated by the success of KN-inspired model editing methods (Dai et al., 2022; Meng et al., 2022). We find that this thesis is, at best, an oversimplification. Not only have we found that we can edit the expression of certain linguistic phenomena using the same model editing methods but, through a more comprehensive evaluation, we have found that the KN thesis does not adequately explain the process of factual expression. While it is possible to argue that the MLP weights store complex patterns that are interpretable both syntactically and semantically, these patterns do not constitute "knowledge." To gain a more comprehensive understanding of the knowledge representation process, we must look beyond the MLP weights and explore recent models' complex layer structures and attention mechanisms.
- Abstract(参考訳): 我々は,大言語モデルが学習コーパスから事実を想起する能力の基盤となるメカニズムの解釈として,知識ニューロン(KN)論を再評価する。
この論文は、「知識」がネットワークに格納されていることを示すキーバリューメモリに似た方法で、事実をトレーニングコーパスからMLPウェイトを通じてリコールすることを示唆している。
さらに、MLPモジュールを変更することで、言語モデルの事実情報の生成を制御することができる。
KN理論の妥当性は、KNにインスパイアされたモデル編集手法の成功によって証明されている(Dai et al , 2022; Meng et al , 2022)。
この論文は、せいぜい、過度に単純化されている。
我々は,同じモデル編集手法を用いて特定の言語現象の表現を編集できることを発見できただけでなく,より包括的な評価により,KN論文が事実表現の過程を適切に説明できないことが判明した。
MLP重みは構文的にも意味的にも解釈可能な複雑なパターンを格納していると主張することは可能だが、これらのパターンは「知識」を構成するものではない。
知識表現プロセスのより包括的な理解を得るためには、MDPの重みを超えて、最近のモデルの複雑な層構造と注意機構を探さなければならない。
関連論文リスト
- Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文 参考訳(メタデータ) (2024-07-22T06:15:59Z) - Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs [55.317267269115845]
Chain-of-Knowledge (CoK)は知識推論のための包括的なフレームワークである。
CoKにはデータセット構築とモデル学習の両方のための方法論が含まれている。
KnowReasonで広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-30T10:49:32Z) - Limited Out-of-Context Knowledge Reasoning in Large Language Models [65.72847298578071]
LLM(Large Language Models)は、知識ベースとしての強力な能力と、コンテキスト内推論能力を示す。
本稿では、複数の知識を組み合わせて新しい知識を推論する、アウト・オブ・コンテクストの知識推論(OCKR: Out-of-context Knowledge Reasoning)について論じる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models [23.11132761945838]
大規模言語モデル(LLM)は、膨大な事実知識を格納するが、その基盤となるメカニズムはいまだ不明である。
これまでの研究では、事実知識は多層パーセプトロン重みに格納されていることが示唆されている。
いくつかの記憶装置は、縮退した知識ニューロンと呼ばれる縮退性を示す。
論文 参考訳(メタデータ) (2024-02-21T11:50:32Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Empowering Language Models with Knowledge Graph Reasoning for Question
Answering [117.79170629640525]
我々はknOwledge ReasOning empowered Language Model (OREO-LM)を提案する。
OREO-LMは、既存のTransformerベースのLMに柔軟に接続できる新しい知識相互作用層で構成されている。
クローズド・ブック・セッティングにおいて,最先端の成果が得られ,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-15T18:26:26Z) - Understanding Knowledge Integration in Language Models with Graph
Convolutions [28.306949176011763]
知識統合(KI)手法は、事前訓練された言語モデル(LM)に外部知識を統合することを目的としている
本稿では,これらのモデルにおけるKI過程を情報理論的視点で再検討し,グラフ畳み込み演算を用いてKIを解釈可能であることを示す。
ERNIE と K-Adapter の 2 つのよく知られた知識強化LM を解析した結果,少量の事実知識が組み込まれていることがわかった。
論文 参考訳(メタデータ) (2022-02-02T11:23:36Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Modelling Compositionality and Structure Dependence in Natural Language [0.12183405753834563]
言語学と集合論に基づいて、これらの概念の形式化がこの論文の前半で述べられている。
言語処理を行う認知システムは,特定の機能的制約を持つ必要がある。
単語埋め込み技術の進歩を利用して、関係学習のモデルがシミュレートされる。
論文 参考訳(メタデータ) (2020-11-22T17:28:50Z) - Facts as Experts: Adaptable and Interpretable Neural Memory over
Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。
このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-07-02T03:05:41Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。