Fugu-MT 論文翻訳(概要): The Da Vinci Code of Large Pre-trained Language Models: Deciphering Degenerate Knowledge Neurons

論文の概要: The Da Vinci Code of Large Pre-trained Language Models: Deciphering Degenerate Knowledge Neurons

arxiv url: http://arxiv.org/abs/2402.13731v1
Date: Wed, 21 Feb 2024 11:50:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 15:44:27.804805
Title: The Da Vinci Code of Large Pre-trained Language Models: Deciphering Degenerate Knowledge Neurons
Title（参考訳）: 大規模事前学習言語モデルのDa Vinci符号:変性知識ニューロンの解読
Authors: Yuheng Chen, Pengfei Cao, Yubo Chen, Yining Wang, Shengping Liu, Kang Liu, Jun Zhao
Abstract要約: 本研究では,事前学習言語モデル(PLM)における知識記憶機構について検討する。これまでの研究では、事実知識は多層パーセプトロン重みに格納されていることが示唆されている。いくつかの記憶装置は、変性知識ニューロン(DKN)と呼ばれる縮退を示す。
参考スコア（独自算出の注目度）: 24.270261798010925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study explores the mechanism of factual knowledge storage in pre-trained language models (PLMs). Previous research suggests that factual knowledge is stored within multi-layer perceptron weights, and some storage units exhibit degeneracy, referred to as Degenerate Knowledge Neurons (DKNs). This paper provides a comprehensive definition of DKNs that covers both structural and functional aspects, pioneering the study of structures in PLMs' factual knowledge storage units. Based on this, we introduce the Neurological Topology Clustering method, which allows the formation of DKNs in any numbers and structures, leading to a more accurate DKN acquisition. Furthermore, we introduce the Neuro-Degeneracy Analytic Analysis Framework, which uniquely integrates model robustness, evolvability, and complexity for a holistic assessment of PLMs. Within this framework, our execution of 34 experiments across 2 PLMs, 4 datasets, and 6 settings highlights the critical role of DKNs. The code will be available soon.
Abstract（参考訳）: 本研究では,事前学習言語モデル(PLM)における知識記憶機構について検討する。これまでの研究では、事実知識は多層パーセプトロンの重みに格納され、いくつかの記憶ユニットは縮退知識ニューロン(DKN)と呼ばれる縮退性を示す。本稿では,dknsの構造的側面と機能的側面の両方を包括的に定義し,plmの知識記憶装置の構造研究の先駆けとなった。これに基づいて神経学的トポロジ・クラスタリング法を導入し,任意の数や構造にDKNが形成されることにより,より正確なDKNの取得が可能となる。さらに,PLMの全体的評価のためのモデルロバスト性,進化性,複雑性を一意に統合するニューロ・デジェネリアシー分析フレームワークを導入する。このフレームワークでは、2つのPLM、4つのデータセット、6つの設定で34の実験を実行しています。コードはもうすぐ入手できる。

関連論文リスト

Decoupling Knowledge and Reasoning in LLMs: An Exploration Using Cognitive Dual-System Theory [2.8952499264943445]
大規模言語モデル(LLM)は推論中に知識と推論の両方を活用する。本稿では,知識と推論の貢献を分離する認知帰属の枠組みを提案する。
論文参考訳（メタデータ） (2025-07-24T08:24:52Z)
Knowledge Mechanisms in Large Language Models: A Survey and Perspective [88.51320482620679]
本稿では,知識利用と進化を含む新しい分類法から知識メカニズムの解析をレビューする。 LLMが学んだ知識、パラメトリック知識の脆弱性の理由、そして解決が難しい潜在的な暗黒知識(仮説)について論じる。
論文参考訳（メタデータ） (2024-07-22T06:15:59Z)
Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs [55.317267269115845]
Chain-of-Knowledge (CoK)は知識推論のための包括的なフレームワークである。 CoKにはデータセット構築とモデル学習の両方のための方法論が含まれている。 KnowReasonで広範な実験を行う。
論文参考訳（メタデータ） (2024-06-30T10:49:32Z)
Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロン(LAFN)と呼ばれる共有ニューロンの集合を活性化する。これらのニューロンは言語間で共有されるのと同じ事実知識を表しており、多言語知識間の意味的関連を示唆している。言語非依存のFactual Neurons(LU-LAFN)を位置決め・更新することで,多言語知識を同時に編集する新しいMKE法を提案する。
論文参考訳（メタデータ） (2024-06-24T08:06:56Z)
Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts [14.69046890281591]
本稿では,大規模言語モデルにおけるクエリ関連ニューロンの同定が可能な,アーキテクチャに依存しない新しいフレームワークを提案する。検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。
論文参考訳（メタデータ） (2024-06-16T09:36:32Z)
Knowledge Localization: Mission Not Accomplished? Enter Query Localization! [19.16542466297147]
知識ニューロン(KN)理論は、これらのメカニズムを説明するための顕著な理論である。我々は、知識ローカライゼーション(KL)の仮定を再検討し、統計的および知識修正の観点から、それに準拠しない事実の存在を確認する。そこで本研究では,知識修正の性能を向上させるConsistency-Aware KN修飾法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:44:12Z)
What does the Knowledge Neuron Thesis Have to do with Knowledge? [13.651280182588666]
我々は,知識ニューロン(KN)を再評価し,学習コーパスから事実を想起する大規模言語モデルの能力の基盤となるメカニズムを解釈する。この論文は、せいぜい、過度に単純化されている。
論文参考訳（メタデータ） (2024-05-03T18:34:37Z)
Journey to the Center of the Knowledge Neurons: Discoveries of Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons [20.56154830853632]
本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
論文参考訳（メタデータ） (2023-08-25T06:26:05Z)
Language Knowledge-Assisted Representation Learning for Skeleton-Based Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。 LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文参考訳（メタデータ） (2023-05-21T08:29:16Z)
Why Do Neural Language Models Still Need Commonsense Knowledge to Handle Semantic Variations in Question Answering? [22.536777694218593]
マスク付きニューラルネットワークモデル(MNLM)は、巨大なニューラルネットワーク構造で構成され、マスクされたテキストを復元するように訓練されている。本稿では,MNLMの事前学習に含まれるコモンセンス知識について,新たな知見と実証分析を行った。
論文参考訳（メタデータ） (2022-09-01T17:15:02Z)
Benchmarking Compositionality with Formal Languages [64.09083307778951]
我々は,NLPにおける大規模ニューラルモデルが,データから学習しながら,原始概念をより大規模な新しい組み合わせに組み込むことができるかどうかを検討する。多くのトランスデューサをランダムにサンプリングすることにより、ニューラルネットワークによる合成関係の学習性に寄与する特性を探索する。モデルは完全に関係を学習するか全く学習しないかが分かる。鍵となるのはトランジッションカバレッジであり、トランジッション毎に400の例でソフトな学習可能性制限を設定する。
論文参考訳（メタデータ） (2022-08-17T10:03:18Z)
Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。我々のデータ駆動量分析は興味深い発見を照らす。我々のコードはNeuroXツールキットの一部として公開されています。
論文参考訳（メタデータ） (2022-06-27T13:31:49Z)
CogNGen: Constructing the Kernel of a Hyperdimensional Predictive Processing Cognitive Architecture [79.07468367923619]
神経生物学的に妥当な2つの計算モデルを組み合わせた新しい認知アーキテクチャを提案する。我々は、現代の機械学習技術の力を持つ認知アーキテクチャを開発することを目指している。
論文参考訳（メタデータ） (2022-03-31T04:44:28Z)
Neural Networks Enhancement with Logical Knowledge [83.9217787335878]
関係データに対するKENNの拡張を提案する。その結果、KENNは、存在関係データにおいても、基礎となるニューラルネットワークの性能を高めることができることがわかった。
論文参考訳（メタデータ） (2020-09-13T21:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。