論文の概要: Understanding Language Model Circuits through Knowledge Editing
- arxiv url: http://arxiv.org/abs/2406.17241v3
- Date: Mon, 16 Dec 2024 18:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:58.436991
- Title: Understanding Language Model Circuits through Knowledge Editing
- Title(参考訳): 知識編集による言語モデル回路の理解
- Authors: Huaizhi Ge, Frank Rudzicz, Zining Zhu,
- Abstract要約: 我々は,GPT-2言語モデルの回路上で,系統的な知識編集実験を行う。
分析の結果,回路が編集にどう反応するかという興味深いパターンが明らかになった。
- 参考スコア(独自算出の注目度): 18.022428746019582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in language model interpretability have identified circuits, critical subnetworks that replicate model behaviors, yet how knowledge is structured within these crucial subnetworks remains opaque. To gain an understanding toward the knowledge in the circuits, we conduct systematic knowledge editing experiments on the circuits of the GPT-2 language model. Our analysis reveals intriguing patterns in how circuits respond to editing attempts, the extent of knowledge distribution across network components, and the architectural composition of knowledge-bearing circuits. These findings offer insights into the complex relationship between model circuits and knowledge representation, deepening the understanding of how information is organized within language models. Our findings offer novel insights into the ``meanings'' of the circuits, and introduce directions for further interpretability and safety research of language models.
- Abstract(参考訳): 言語モデルの解釈可能性の最近の進歩は、モデルの振る舞いを再現する回路、重要なサブネットを同定しているが、これらの重要なサブネット内での知識がどのように構成されているかは、いまだ不透明である。
回路の知識に対する理解を得るために,GPT-2言語モデルの回路上で,系統的な知識編集実験を行う。
本分析により,回路が編集の試みにどう反応するか,ネットワークコンポーネント間の知識分布の程度,および知識を有する回路のアーキテクチャ構成に興味深いパターンが明らかになった。
これらの知見は、モデル回路と知識表現の複雑な関係に関する洞察を与え、言語モデル内で情報がどのように組織化されているかの理解を深める。
本研究は,回路の「意味」に関する新たな知見を提供し,言語モデルのさらなる解釈可能性と安全性研究の方向性を紹介する。
関連論文リスト
- How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training [92.88889953768455]
大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。
知識記憶と処理を容易にする計算サブグラフを同定する。
論文 参考訳(メタデータ) (2025-02-16T16:55:43Z) - Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability [3.138731415322007]
GPT-2小領域における間接物体識別(IOI)回路の汎用性について検討する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
論文 参考訳(メタデータ) (2024-11-25T05:32:34Z) - Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.89563355840371]
言語モデル内の高構成サブタスクの回路解析により,ニューラルネットワークのモジュラリティについて検討する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T11:36:45Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Knowledge Circuits in Pretrained Transformers [47.342682123081204]
現代の大言語モデルが知識をいかに保存するかという内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。
本稿では,言語モデルのグラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。
これらの知識回路に対する現在の知識編集技術の影響を評価し,これらの編集手法の機能や制約についてより深い知見を提供する。
論文 参考訳(メタデータ) (2024-05-28T08:56:33Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Knowledge-Infused Self Attention Transformers [11.008412414253662]
トランスフォーマーベースの言語モデルは、様々な自然言語処理タスクにおいて驚くべき成功を収めた。
本稿では,トランスモデルの異なるコンポーネントに知識を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T13:55:01Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Learning to Express in Knowledge-Grounded Conversation [62.338124154016825]
本稿では,知識表現の2つの側面,すなわち各部分における内容の応答構造とスタイルについて考察する。
本稿では, セグメンテーションに基づく生成モデルを提案し, 応答における知識表現の基盤となるパターンを発見するために, 変動的アプローチを用いてモデルを最適化する。
論文 参考訳(メタデータ) (2022-04-12T13:43:47Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - On the realistic worst case analysis of quantum arithmetic circuits [69.43216268165402]
量子回路の設計における直観は誤解を招く可能性があることを示す。
また,T数を減らすことで,全深度を増大させることができることを示した。
リップルキャリーを用いた加算回路と乗算回路について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。