論文の概要: Knowledge Circuits in Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2405.17969v2
- Date: Wed, 16 Oct 2024 03:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:27.446993
- Title: Knowledge Circuits in Pretrained Transformers
- Title(参考訳): 予め学習した変圧器の知識回路
- Authors: Yunzhi Yao, Ningyu Zhang, Zekun Xi, Mengru Wang, Ziwen Xu, Shumin Deng, Huajun Chen,
- Abstract要約: 現代の大言語モデルが知識をいかに保存するかという内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。
本稿では,言語モデルのグラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。
これらの知識回路に対する現在の知識編集技術の影響を評価し,これらの編集手法の機能や制約についてより深い知見を提供する。
- 参考スコア(独自算出の注目度): 47.342682123081204
- License:
- Abstract: The remarkable capabilities of modern large language models are rooted in their vast repositories of knowledge encoded within their parameters, enabling them to perceive the world and engage in reasoning. The inner workings of how these models store knowledge have long been a subject of intense interest and investigation among researchers. To date, most studies have concentrated on isolated components within these models, such as the Multilayer Perceptrons and attention head. In this paper, we delve into the computation graph of the language model to uncover the knowledge circuits that are instrumental in articulating specific knowledge. The experiments, conducted with GPT2 and TinyLLAMA, have allowed us to observe how certain information heads, relation heads, and Multilayer Perceptrons collaboratively encode knowledge within the model. Moreover, we evaluate the impact of current knowledge editing techniques on these knowledge circuits, providing deeper insights into the functioning and constraints of these editing methodologies. Finally, we utilize knowledge circuits to analyze and interpret language model behaviors such as hallucinations and in-context learning. We believe the knowledge circuits hold potential for advancing our understanding of Transformers and guiding the improved design of knowledge editing. Code and data are available in https://github.com/zjunlp/KnowledgeCircuits.
- Abstract(参考訳): 現代の大規模言語モデルの顕著な能力は、そのパラメータにエンコードされた膨大な知識のリポジトリに根ざしているため、彼らは世界を知覚し、推論に携わることができる。
これらのモデルが知識を格納する方法についての内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。
これまで、ほとんどの研究は、多層パーセプトロンやアテンションヘッドなど、これらのモデル内の孤立成分に集中してきた。
本稿では,言語モデルの計算グラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。
GPT2 と TinyLLAMA を用いて行った実験により,特定の情報ヘッド,関係ヘッド,多層パーセプトロンがモデル内の知識を協調的に符号化する様子を観察できるようになった。
さらに、これらの知識回路に対する現在の知識編集技術の影響を評価し、これらの編集手法の機能や制約についてより深い知見を提供する。
最後に,知識回路を用いて幻覚や文脈内学習などの言語モデル行動を分析し,解釈する。
我々は、知識回路がトランスフォーマーの理解を深め、知識編集の改良設計を導く可能性を秘めていると考えている。
コードとデータはhttps://github.com/zjunlp/KnowledgeCircuits.comで公開されている。
関連論文リスト
- Does Knowledge Localization Hold True? Surprising Differences Between Entity and Relation Perspectives in Language Models [20.157061521694096]
本研究では,知識編集による実体的知識と関係的知識の相違について検討する。
実体的知識と関係的知識の差異をさらに解明するために,関係的知識が事前学習されたモデルにどのように格納されているかを調べるために因果解析を用いる。
この洞察は、言語モデルにおける知識記憶の多面的な性質を強調し、これらのモデル内で特定の種類の知識を操作する複雑さを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-01T05:09:11Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Understanding Knowledge Integration in Language Models with Graph
Convolutions [28.306949176011763]
知識統合(KI)手法は、事前訓練された言語モデル(LM)に外部知識を統合することを目的としている
本稿では,これらのモデルにおけるKI過程を情報理論的視点で再検討し,グラフ畳み込み演算を用いてKIを解釈可能であることを示す。
ERNIE と K-Adapter の 2 つのよく知られた知識強化LM を解析した結果,少量の事実知識が組み込まれていることがわかった。
論文 参考訳(メタデータ) (2022-02-02T11:23:36Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - K-XLNet: A General Method for Combining Explicit Knowledge with Language
Model Pretraining [5.178964604577459]
明示的な知識を活用することで、モデルの事前訓練を改善することに重点を置いています。
具体的には、まず知識グラフ(KG)から知識事実をマッチングし、次に直接変換器に知識命令層を追加する。
実験の結果,変圧器に外部知識を加えるだけで,多くのNLPタスクにおける学習性能が向上することが示された。
論文 参考訳(メタデータ) (2021-03-25T06:14:18Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。