論文の概要: Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13731v2
- Date: Mon, 17 Jun 2024 03:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:56:21.960640
- Title: Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models
- Title(参考訳): ファクチュアル知識のひび割れ:大規模言語モデルにおける退化知識ニューロンの包括的解析
- Authors: Yuheng Chen, Pengfei Cao, Yubo Chen, Yining Wang, Shengping Liu, Kang Liu, Jun Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、膨大な事実知識を格納するが、その基盤となるメカニズムはいまだ不明である。
これまでの研究では、事実知識は多層パーセプトロン重みに格納されていることが示唆されている。
いくつかの記憶装置は、縮退した知識ニューロンと呼ばれる縮退性を示す。
- 参考スコア(独自算出の注目度): 23.11132761945838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) store extensive factual knowledge, but the underlying mechanisms remain unclear. Previous research suggests that factual knowledge is stored within multi-layer perceptron weights, and some storage units exhibit degeneracy, referred to as Degenerate Knowledge Neurons (DKNs). Despite the novelty and unique properties of this concept, it has not been rigorously defined or systematically studied. We first consider the connection weight patterns of MLP neurons and define DKNs from both structural and functional aspects. Based on this, we introduce the Neurological Topology Clustering method, which allows the formation of DKNs in any numbers and structures, leading to a more accurate DKN acquisition. Furthermore, inspired by cognitive science, we explore the relationship between DKNs and the robustness, evolvability, and complexity of LLMs. Our execution of 34 experiments under 6 settings demonstrates the connection between DKNs and these three properties. The code will be available soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は、膨大な事実知識を格納するが、その基盤となるメカニズムはいまだ不明である。
以前の研究では、事実知識は多層パーセプトロンの重みに格納され、いくつかの記憶ユニットは縮退知識ニューロン(DKN)と呼ばれる縮退性を示すことが示唆された。
この概念の斬新さと独特な性質にもかかわらず、厳密に定義されたり体系的に研究されたりはしていない。
まず、MLPニューロンの接続重みパターンを考察し、構造的側面と機能的側面の両方からDKNを定義する。
これに基づいて神経学的トポロジ・クラスタリング法を導入し,任意の数や構造にDKNが形成されることにより,より正確なDKNの取得が可能となる。
さらに、認知科学に触発されて、我々はDKNとLLMの堅牢性、進化性、複雑さとの関係を探求する。
6 つの条件下で34 実験を行った結果,DKN とこれら3 つの特性の関連性が示された。
コードはまもなく利用可能になる。
関連論文リスト
- Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。
LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文 参考訳(メタデータ) (2024-07-22T06:15:59Z) - Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs [55.317267269115845]
Chain-of-Knowledge (CoK)は知識推論のための包括的なフレームワークである。
CoKにはデータセット構築とモデル学習の両方のための方法論が含まれている。
KnowReasonで広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-30T10:49:32Z) - Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts [14.69046890281591]
本稿では,大規模言語モデルにおけるクエリ関連ニューロンの同定が可能な,アーキテクチャに依存しない新しいフレームワークを提案する。
検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。
論文 参考訳(メタデータ) (2024-06-16T09:36:32Z) - Knowledge Localization: Mission Not Accomplished? Enter Query Localization! [19.16542466297147]
知識ニューロン(KN)理論は、これらのメカニズムを説明するための顕著な理論である。
我々は、知識ローカライゼーション(KL)の仮定を再検討し、統計的および知識修正の観点から、それに準拠しない事実の存在を確認する。
そこで本研究では,知識修正の性能を向上させるConsistency-Aware KN修飾法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:44:12Z) - What does the Knowledge Neuron Thesis Have to do with Knowledge? [13.651280182588666]
我々は,知識ニューロン(KN)を再評価し,学習コーパスから事実を想起する大規模言語モデルの能力の基盤となるメカニズムを解釈する。
この論文は、せいぜい、過度に単純化されている。
論文 参考訳(メタデータ) (2024-05-03T18:34:37Z) - Journey to the Center of the Knowledge Neurons: Discoveries of
Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons [20.56154830853632]
本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。
本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。
また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
論文 参考訳(メタデータ) (2023-08-25T06:26:05Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - Benchmarking Compositionality with Formal Languages [64.09083307778951]
我々は,NLPにおける大規模ニューラルモデルが,データから学習しながら,原始概念をより大規模な新しい組み合わせに組み込むことができるかどうかを検討する。
多くのトランスデューサをランダムにサンプリングすることにより、ニューラルネットワークによる合成関係の学習性に寄与する特性を探索する。
モデルは完全に関係を学習するか全く学習しないかが分かる。鍵となるのはトランジッションカバレッジであり、トランジッション毎に400の例でソフトな学習可能性制限を設定する。
論文 参考訳(メタデータ) (2022-08-17T10:03:18Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - CogNGen: Constructing the Kernel of a Hyperdimensional Predictive
Processing Cognitive Architecture [79.07468367923619]
神経生物学的に妥当な2つの計算モデルを組み合わせた新しい認知アーキテクチャを提案する。
我々は、現代の機械学習技術の力を持つ認知アーキテクチャを開発することを目指している。
論文 参考訳(メタデータ) (2022-03-31T04:44:28Z) - Neural Networks Enhancement with Logical Knowledge [83.9217787335878]
関係データに対するKENNの拡張を提案する。
その結果、KENNは、存在関係データにおいても、基礎となるニューラルネットワークの性能を高めることができることがわかった。
論文 参考訳(メタデータ) (2020-09-13T21:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。