論文の概要: What Do the Circuits Mean? A Knowledge Edit View
- arxiv url: http://arxiv.org/abs/2406.17241v1
- Date: Tue, 25 Jun 2024 03:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:51:17.713325
- Title: What Do the Circuits Mean? A Knowledge Edit View
- Title(参考訳): 回路とは何か? 知識編集の視点
- Authors: Huaizhi Ge, Frank Rudzicz, Zining Zhu,
- Abstract要約: GPT2-XLモデルにおいて,多様なテキスト分類データセットを用いて回路を抽出する。
以上の結果から,これらの回路はエンティティ知識を含むが,知識編集において補完回路よりも新しい知識に抵抗することが示唆された。
その結果、回路の60%は、注意や正規化ではなく、層モジュールで構成されていることがわかった。
- 参考スコア(独自算出の注目度): 18.022428746019582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of language model interpretability, circuit discovery is gaining popularity. Despite this, the true meaning of these circuits remain largely unanswered. We introduce a novel method to learn their meanings as a holistic object through the lens of knowledge editing. We extract circuits in the GPT2-XL model using diverse text classification datasets, and use hierarchical relations datasets to explore knowledge editing in the circuits. Our findings indicate that these circuits contain entity knowledge but resist new knowledge more than complementary circuits during knowledge editing. Additionally, we examine the impact of circuit size, discovering that an ideal "theoretical circuit" where essential knowledge is concentrated likely incorporates more than 5% but less than 50% of the model's parameters. We also assess the overlap between circuits from different datasets, finding moderate similarities. What constitutes these circuits, then? We find that up to 60% of the circuits consist of layer normalization modules rather than attention or MLP modules, adding evidence to the ongoing debates regarding knowledge localization. In summary, our findings offer new insights into the functions of the circuits, and introduce research directions for further interpretability and safety research of language models.
- Abstract(参考訳): 言語モデルの解釈可能性の分野では、回路発見が人気を集めている。
しかし、これらの回路の真の意味はほとんど答えられていない。
本稿では,知識編集のレンズを用いて,その意味を包括的対象として学習する新しい手法を提案する。
多様なテキスト分類データセットを用いてGPT2-XLモデルの回路を抽出し、階層的関係データセットを用いて回路内の知識編集を探索する。
以上の結果から,これらの回路はエンティティ知識を含むが,知識編集において補完回路よりも新しい知識に抵抗することが示唆された。
さらに,本質的な知識が集中している理想的な「理論回路」が,5%以上だが50%未満のパラメータを組み込む可能性が示唆された。
また、異なるデータセットからの回路間の重なり合いを評価し、適度な類似性を見出す。
では、これらの回路を構成するものは何か?
回路の最大60%は、注意やMLPモジュールではなく、層正規化モジュールで構成されており、知識ローカライゼーションに関する議論が進行中であることを示す。
要約して,本研究は,回路の機能に関する新たな知見を提供し,言語モデルのさらなる解釈可能性および安全性研究のための研究の方向性を紹介する。
関連論文リスト
- Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability [3.138731415322007]
GPT-2小領域における間接物体識別(IOI)回路の汎用性について検討する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
論文 参考訳(メタデータ) (2024-11-25T05:32:34Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Knowledge Circuits in Pretrained Transformers [47.342682123081204]
現代の大言語モデルが知識をいかに保存するかという内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。
本稿では,言語モデルのグラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。
これらの知識回路に対する現在の知識編集技術の影響を評価し,これらの編集手法の機能や制約についてより深い知見を提供する。
論文 参考訳(メタデータ) (2024-05-28T08:56:33Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - On the realistic worst case analysis of quantum arithmetic circuits [69.43216268165402]
量子回路の設計における直観は誤解を招く可能性があることを示す。
また,T数を減らすことで,全深度を増大させることができることを示した。
リップルキャリーを用いた加算回路と乗算回路について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。