論文の概要: Finding patterns in Knowledge Attribution for Transformers
- arxiv url: http://arxiv.org/abs/2205.01366v1
- Date: Tue, 3 May 2022 08:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:45:35.579832
- Title: Finding patterns in Knowledge Attribution for Transformers
- Title(参考訳): 変圧器の知識属性におけるパターンの探索
- Authors: Jeevesh Juneja and Ritu Agarwal
- Abstract要約: 実験には12層多言語BERTモデルを用いる。
事実的知識の大部分は,ネットワークの中間層と上位層に起因している,と我々は考えている。
文法的知識に対する帰属スキームを適用すると、文法的知識は事実的知識よりもニューロン間ではるかに分散していることが分かる。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We analyze the Knowledge Neurons framework for the attribution of factual and
relational knowledge to particular neurons in the transformer network. We use a
12-layer multi-lingual BERT model for our experiments. Our study reveals
various interesting phenomena. We observe that mostly factual knowledge can be
attributed to middle and higher layers of the network($\ge 6$). Further
analysis reveals that the middle layers($6-9$) are mostly responsible for
relational information, which is further refined into actual factual knowledge
or the "correct answer" in the last few layers($10-12$). Our experiments also
show that the model handles prompts in different languages, but representing
the same fact, similarly, providing further evidence for effectiveness of
multi-lingual pre-training. Applying the attribution scheme for grammatical
knowledge, we find that grammatical knowledge is far more dispersed among the
neurons than factual knowledge.
- Abstract(参考訳): トランスフォーマーネットワーク内の特定のニューロンに対する事実的および関係的知識の帰属のための知識ニューロンフレームワークの解析を行う。
実験には12層多言語BERTモデルを用いる。
我々の研究は様々な興味深い現象を明らかにした。
事実的知識の大部分は、ネットワークの中層と上位層($\ge 6$)に起因する。
さらなる分析により、中間層($6-9$)が関係情報に責任を負うことが判明し、これが事実知識や最後の数層($10-12$)の「正しい答え」にさらに洗練される。
実験の結果,モデルが異なる言語でのプロンプトを処理することも確認できたが,同じ事実を表わすことで,多言語事前学習の有効性がさらに証明された。
文法知識に対する帰属スキームを適用すると、文法知識は事実知識よりもニューロン間ではるかに分散していることがわかる。
関連論文リスト
- Does Knowledge Localization Hold True? Surprising Differences Between Entity and Relation Perspectives in Language Models [20.157061521694096]
本研究では,知識編集による実体的知識と関係的知識の相違について検討する。
実体的知識と関係的知識の差異をさらに解明するために,関係的知識が事前学習されたモデルにどのように格納されているかを調べるために因果解析を用いる。
この洞察は、言語モデルにおける知識記憶の多面的な性質を強調し、これらのモデル内で特定の種類の知識を操作する複雑さを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-01T05:09:11Z) - Large Language Models Are Cross-Lingual Knowledge-Free Reasoners [43.99097308487008]
我々は,タスクの推論過程を,知識検索と知識のない推論という2つの分離された構成要素に分解する。
知識のない推論能力は,様々なソース・ターゲット言語方向にほぼ完全に移行可能であることを示す。
知識のない推論は、異なる言語で類似したニューロンを推論するために共有し、知識は異なる言語に別々に格納する、という仮説を立てる。
論文 参考訳(メタデータ) (2024-06-24T14:03:04Z) - Multilingual Knowledge Editing with Language-Agnostic Factual Neurons [98.73585104789217]
大規模言語モデル(LLM)が多言語事実知識をどのように表すかを検討する。
異なる言語における同じ事実知識は一般的に、言語に依存しない事実ニューロンと呼ばれる共有ニューロンの集合を活性化する。
そこで本研究では,言語非依存のFactual Neurons (LAFN) を探索・修正し,多言語知識を同時に編集する新しいMKE法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:06:56Z) - Journey to the Center of the Knowledge Neurons: Discoveries of
Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons [20.56154830853632]
本稿では,多言語言語モデルにおいて,事実知識がどのように格納されているかを理解するための複雑な課題について考察する。
本稿では,知識ニューロンをより正確にローカライズするアーキテクチャ適応型多言語統合勾配法を提案する。
また、知識ニューロンの詳細な探索も行っており、以下の2つの重要な発見につながっている。
論文 参考訳(メタデータ) (2023-08-25T06:26:05Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - BERTnesia: Investigating the capture and forgetting of knowledge in BERT [7.304523502384361]
我々はBERTを探索し、そのパラメトリックメモリで捉えた関係知識を理解し、測定する。
以上の結果から,知識はBERTの最終層にのみ含まれていないことが明らかとなった。
BERTが微調整されると、関係知識は忘れられる。
論文 参考訳(メタデータ) (2021-06-05T14:23:49Z) - Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。
事実と常識はより遅く、ドメインに敏感です。
クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文 参考訳(メタデータ) (2021-04-16T04:26:39Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。