Fugu-MT 論文翻訳(概要): Journey to the Center of the Knowledge Neurons: Discoveries of Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons

論文の概要: Journey to the Center of the Knowledge Neurons: Discoveries of Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons

arxiv url: http://arxiv.org/abs/2308.13198v2
Date: Wed, 20 Dec 2023 11:05:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 19:16:59.635908
Title: Journey to the Center of the Knowledge Neurons: Discoveries of Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons
Title（参考訳）: 知識ニューロンの中心への旅:言語に依存しない知識ニューロンと変性知識ニューロンの発見
Authors: Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
Abstract要約: 本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
参考スコア（独自算出の注目度）: 20.56154830853632
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models (PLMs) contain vast amounts of factual knowledge, but how the knowledge is stored in the parameters remains unclear. This paper delves into the complex task of understanding how factual knowledge is stored in multilingual PLMs, and introduces the Architecture-adapted Multilingual Integrated Gradients method, which successfully localizes knowledge neurons more precisely compared to current methods, and is more universal across various architectures and languages. Moreover, we conduct an in-depth exploration of knowledge neurons, leading to the following two important discoveries: (1) The discovery of Language-Independent Knowledge Neurons, which store factual knowledge in a form that transcends language. We design cross-lingual knowledge editing experiments, demonstrating that the PLMs can accomplish this task based on language-independent neurons; (2) The discovery of Degenerate Knowledge Neurons, a novel type of neuron showing that different knowledge neurons can store the same fact. Its property of functional overlap endows the PLMs with a robust mastery of factual knowledge. We design fact-checking experiments, proving that the degenerate knowledge neurons can help the PLMs to detect wrong facts. Experiments corroborate these findings, shedding light on the mechanisms of factual knowledge storage in multilingual PLMs, and contribute valuable insights to the field. The code is available at https://github.com/heng840/AMIG.
Abstract（参考訳）: 事前学習された言語モデル(PLM)には膨大な事実知識が含まれているが、その知識がパラメータにどのように格納されているかは未定である。本稿では,事実知識が多言語plmにどのように格納されているかを理解するための複雑なタスクを考察し,アーキテクチャ適応型多言語統合勾配法を紹介し,知識ニューロンを現在の手法よりも高精度にローカライズし,様々なアーキテクチャや言語にまたがってより普遍的な手法を提案する。さらに、我々は知識ニューロンの詳細な探索を行い、(1)言語に依存しない知識ニューロンの発見、すなわち、事実知識を言語を超越した形で保存する、という2つの重要な発見につながった。我々は言語間知識編集実験を設計し、PLMが言語に依存しないニューロンに基づいてこのタスクを達成できることを実証する; (2) 異なる知識ニューロンが同じ事実を記憶できることを示す新しいタイプの神経である変性知識ニューロンの発見。その機能的重複の性質は PLM に事実知識の堅牢な習得を与える。我々はファクトチェック実験を設計し、変性した知識ニューロンがPLMが誤った事実を検出するのに役立つことを証明した。実験はこれらの知見を裏付け、多言語PLMにおける事実的知識記憶のメカニズムに光を当て、この分野に貴重な洞察をもたらした。コードはhttps://github.com/heng840/amigで入手できる。

関連論文リスト

How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文参考訳（メタデータ） (2025-05-27T17:59:52Z)
Towards Understanding How Knowledge Evolves in Large Vision-Language Models [55.82918299608732]
我々はマルチモーダル知識がどのように進化し、最終的にLVLM(Large Vision-Language Models)において自然言語を誘導するかを考察する。知識進化における2つの重要なノードを同定する: 臨界層と突然変異層、進化過程を3段階に分割する: 急速な進化、安定化、突然変異。我々の研究は、LVLMにおける知識進化の軌跡を初めて明らかにし、その基盤となるメカニズムを理解するための新たな視点を提供する。
論文参考訳（メタデータ） (2025-03-31T17:35:37Z)
One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models [19.58983929459173]
大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。 LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能を示した。
論文参考訳（メタデータ） (2024-11-26T13:03:49Z)
Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
大規模言語モデル(LLM)が多言語事実知識をどのように表すかを検討する。異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロンと呼ばれる共有ニューロンの集合を活性化する。そこで本研究では,言語非依存のFactual Neurons (LAFN) を探索・修正し,多言語知識を同時に編集する新しいMKE法を提案する。
論文参考訳（メタデータ） (2024-06-24T08:06:56Z)
Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts [14.69046890281591]
本稿では,大規模言語モデルにおけるクエリ関連ニューロンの同定が可能な,アーキテクチャに依存しない新しいフレームワークを提案する。検出されたニューロンの知識編集およびニューロンによる予測への応用の可能性を示す。
論文参考訳（メタデータ） (2024-06-16T09:36:32Z)
Revealing the Parallel Multilingual Learning within Large Language Models [50.098518799536144]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。入力を複数の言語に翻訳することで、並列入力(PiM)をLLMに提供し、その理解能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-14T03:33:46Z)
Cracking Factual Knowledge: A Comprehensive Analysis of Degenerate Knowledge Neurons in Large Language Models [23.11132761945838]
大規模言語モデル(LLM)は、膨大な事実知識を格納するが、その基盤となるメカニズムはいまだ不明である。これまでの研究では、事実知識は多層パーセプトロン重みに格納されていることが示唆されている。いくつかの記憶装置は、縮退した知識ニューロンと呼ばれる縮退性を示す。
論文参考訳（メタデータ） (2024-02-21T11:50:32Z)
Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文参考訳（メタデータ） (2023-10-23T13:31:32Z)
Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文参考訳（メタデータ） (2023-05-15T15:47:09Z)
A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。 NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。 NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文参考訳（メタデータ） (2022-11-11T04:29:02Z)
Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。我々のデータ駆動量分析は興味深い発見を照らす。我々のコードはNeuroXツールキットの一部として公開されています。
論文参考訳（メタデータ） (2022-06-27T13:31:49Z)
Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。テキスト分類実験は有望な結果を示す。我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文参考訳（メタデータ） (2020-12-25T12:27:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。