論文の概要: Journey to the Center of the Knowledge Neurons: Discoveries of
Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons
- arxiv url: http://arxiv.org/abs/2308.13198v2
- Date: Wed, 20 Dec 2023 11:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:16:59.635908
- Title: Journey to the Center of the Knowledge Neurons: Discoveries of
Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons
- Title(参考訳): 知識ニューロンの中心への旅:言語に依存しない知識ニューロンと変性知識ニューロンの発見
- Authors: Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
- Abstract要約: 本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。
本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。
また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
- 参考スコア(独自算出の注目度): 20.56154830853632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) contain vast amounts of factual knowledge,
but how the knowledge is stored in the parameters remains unclear. This paper
delves into the complex task of understanding how factual knowledge is stored
in multilingual PLMs, and introduces the Architecture-adapted Multilingual
Integrated Gradients method, which successfully localizes knowledge neurons
more precisely compared to current methods, and is more universal across
various architectures and languages. Moreover, we conduct an in-depth
exploration of knowledge neurons, leading to the following two important
discoveries: (1) The discovery of Language-Independent Knowledge Neurons, which
store factual knowledge in a form that transcends language. We design
cross-lingual knowledge editing experiments, demonstrating that the PLMs can
accomplish this task based on language-independent neurons; (2) The discovery
of Degenerate Knowledge Neurons, a novel type of neuron showing that different
knowledge neurons can store the same fact. Its property of functional overlap
endows the PLMs with a robust mastery of factual knowledge. We design
fact-checking experiments, proving that the degenerate knowledge neurons can
help the PLMs to detect wrong facts. Experiments corroborate these findings,
shedding light on the mechanisms of factual knowledge storage in multilingual
PLMs, and contribute valuable insights to the field. The code is available at
https://github.com/heng840/AMIG.
- Abstract(参考訳): 事前学習された言語モデル(PLM)には膨大な事実知識が含まれているが、その知識がパラメータにどのように格納されているかは未定である。
本稿では,事実知識が多言語plmにどのように格納されているかを理解するための複雑なタスクを考察し,アーキテクチャ適応型多言語統合勾配法を紹介し,知識ニューロンを現在の手法よりも高精度にローカライズし,様々なアーキテクチャや言語にまたがってより普遍的な手法を提案する。
さらに、我々は知識ニューロンの詳細な探索を行い、(1)言語に依存しない知識ニューロンの発見、すなわち、事実知識を言語を超越した形で保存する、という2つの重要な発見につながった。
我々は言語間知識編集実験を設計し、PLMが言語に依存しないニューロンに基づいてこのタスクを達成できることを実証する; (2) 異なる知識ニューロンが同じ事実を記憶できることを示す新しいタイプの神経である変性知識ニューロンの発見。
その機能的重複の性質は PLM に事実知識の堅牢な習得を与える。
我々はファクトチェック実験を設計し、変性した知識ニューロンがPLMが誤った事実を検出するのに役立つことを証明した。
実験はこれらの知見を裏付け、多言語PLMにおける事実的知識記憶のメカニズムに光を当て、この分野に貴重な洞察をもたらした。
コードはhttps://github.com/heng840/amigで入手できる。
関連論文リスト
- One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models [19.58983929459173]
大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。
LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能を示した。
論文 参考訳(メタデータ) (2024-11-26T13:03:49Z) - Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
大規模言語モデル(LLM)が多言語事実知識をどのように表すかを検討する。
異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロンと呼ばれる共有ニューロンの集合を活性化する。
そこで本研究では,言語非依存のFactual Neurons (LAFN) を探索・修正し,多言語知識を同時に編集する新しいMKE法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:06:56Z) - Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts [14.69046890281591]
本稿では,大規模言語モデルにおけるクエリ関連ニューロンの同定が可能な,アーキテクチャに依存しない新しいフレームワークを提案する。
検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。
論文 参考訳(メタデータ) (2024-06-16T09:36:32Z) - Revealing the Parallel Multilingual Learning within Large Language Models [50.098518799536144]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。
入力を複数の言語に翻訳することで、並列入力(PiM)をLLMに提供し、その理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-14T03:33:46Z) - Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models [23.11132761945838]
大規模言語モデル(LLM)は、膨大な事実知識を格納するが、その基盤となるメカニズムはいまだ不明である。
これまでの研究では、事実知識は多層パーセプトロン重みに格納されていることが示唆されている。
いくつかの記憶装置は、縮退した知識ニューロンと呼ばれる縮退性を示す。
論文 参考訳(メタデータ) (2024-02-21T11:50:32Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。