論文の概要: The Da Vinci Code of Large Pre-trained Language Models: Deciphering
Degenerate Knowledge Neurons
- arxiv url: http://arxiv.org/abs/2402.13731v1
- Date: Wed, 21 Feb 2024 11:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:44:27.804805
- Title: The Da Vinci Code of Large Pre-trained Language Models: Deciphering
Degenerate Knowledge Neurons
- Title(参考訳): 大規模事前学習言語モデルのDa Vinci符号:変性知識ニューロンの解読
- Authors: Yuheng Chen, Pengfei Cao, Yubo Chen, Yining Wang, Shengping Liu, Kang
Liu, Jun Zhao
- Abstract要約: 本研究では,事前学習言語モデル(PLM)における知識記憶機構について検討する。
これまでの研究では、事実知識は多層パーセプトロン重みに格納されていることが示唆されている。
いくつかの記憶装置は、変性知識ニューロン(DKN)と呼ばれる縮退を示す。
- 参考スコア(独自算出の注目度): 24.270261798010925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the mechanism of factual knowledge storage in pre-trained
language models (PLMs). Previous research suggests that factual knowledge is
stored within multi-layer perceptron weights, and some storage units exhibit
degeneracy, referred to as Degenerate Knowledge Neurons (DKNs). This paper
provides a comprehensive definition of DKNs that covers both structural and
functional aspects, pioneering the study of structures in PLMs' factual
knowledge storage units. Based on this, we introduce the Neurological Topology
Clustering method, which allows the formation of DKNs in any numbers and
structures, leading to a more accurate DKN acquisition. Furthermore, we
introduce the Neuro-Degeneracy Analytic Analysis Framework, which uniquely
integrates model robustness, evolvability, and complexity for a holistic
assessment of PLMs. Within this framework, our execution of 34 experiments
across 2 PLMs, 4 datasets, and 6 settings highlights the critical role of DKNs.
The code will be available soon.
- Abstract(参考訳): 本研究では,事前学習言語モデル(PLM)における知識記憶機構について検討する。
これまでの研究では、事実知識は多層パーセプトロンの重みに格納され、いくつかの記憶ユニットは縮退知識ニューロン(DKN)と呼ばれる縮退性を示す。
本稿では,dknsの構造的側面と機能的側面の両方を包括的に定義し,plmの知識記憶装置の構造研究の先駆けとなった。
これに基づいて神経学的トポロジ・クラスタリング法を導入し,任意の数や構造にDKNが形成されることにより,より正確なDKNの取得が可能となる。
さらに,PLMの全体的評価のためのモデルロバスト性,進化性,複雑性を一意に統合するニューロ・デジェネリアシー分析フレームワークを導入する。
このフレームワークでは、2つのPLM、4つのデータセット、6つの設定で34の実験を実行しています。
コードはもうすぐ入手できる。
関連論文リスト
- What does the Knowledge Neuron Thesis Have to do with Knowledge? [13.651280182588666]
我々は,知識ニューロン(KN)を再評価し,学習コーパスから事実を想起する大規模言語モデルの能力の基盤となるメカニズムを解釈する。
この論文は、せいぜい、過度に単純化されている。
論文 参考訳(メタデータ) (2024-05-03T18:34:37Z) - Towards Generating Informative Textual Description for Neurons in
Language Models [6.884227665279812]
本稿では,ニューロンにテキスト記述を結び付けるフレームワークを提案する。
特に,提案手法が75%精度@2,50%リコール@2を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-30T04:06:25Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Journey to the Center of the Knowledge Neurons: Discoveries of
Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons [20.56154830853632]
本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。
本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。
また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
論文 参考訳(メタデータ) (2023-08-25T06:26:05Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - CogNGen: Constructing the Kernel of a Hyperdimensional Predictive
Processing Cognitive Architecture [79.07468367923619]
神経生物学的に妥当な2つの計算モデルを組み合わせた新しい認知アーキテクチャを提案する。
我々は、現代の機械学習技術の力を持つ認知アーキテクチャを開発することを目指している。
論文 参考訳(メタデータ) (2022-03-31T04:44:28Z) - On the Exploitation of Neuroevolutionary Information: Analyzing the Past
for a More Efficient Future [60.99717891994599]
本稿では,神経進化過程から情報を抽出し,メタモデルを構築するアプローチを提案する。
本稿では, 異なる特徴を有する生成的対向ネットワークの神経進化的探索における最良の構造について検討する。
論文 参考訳(メタデータ) (2021-05-26T20:55:29Z) - Neural Networks Enhancement with Logical Knowledge [83.9217787335878]
関係データに対するKENNの拡張を提案する。
その結果、KENNは、存在関係データにおいても、基礎となるニューラルネットワークの性能を高めることができることがわかった。
論文 参考訳(メタデータ) (2020-09-13T21:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。