論文の概要: Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic
Interpretability: A Case Study on Othello-GPT
- arxiv url: http://arxiv.org/abs/2402.12201v1
- Date: Mon, 19 Feb 2024 15:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:58:08.641116
- Title: Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic
Interpretability: A Case Study on Othello-GPT
- Title(参考訳): 辞書学習による機械的解釈容易性の向上:Othello-GPTを事例として
- Authors: Zhengfu He, Xuyang Ge, Qiong Tang, Tianxiang Sun, Qinyuan Cheng,
Xipeng Qiu
- Abstract要約: 本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。
当社のフレームワークはアウト・オブ・ディストリビューション(out-of-distribution)に悩まされており、複雑さの観点からより効率的であることが証明されています。
我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。
- 参考スコア(独自算出の注目度): 59.245414547751636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse dictionary learning has been a rapidly growing technique in
mechanistic interpretability to attack superposition and extract more
human-understandable features from model activations. We ask a further question
based on the extracted more monosemantic features: How do we recognize circuits
connecting the enormous amount of dictionary features? We propose a circuit
discovery framework alternative to activation patching. Our framework suffers
less from out-of-distribution and proves to be more efficient in terms of
asymptotic complexity. The basic unit in our framework is dictionary features
decomposed from all modules writing to the residual stream, including
embedding, attention output and MLP output. Starting from any logit, dictionary
feature or attention score, we manage to trace down to lower-level dictionary
features of all tokens and compute their contribution to these more
interpretable and local model behaviors. We dig in a small transformer trained
on a synthetic task named Othello and find a number of human-understandable
fine-grained circuits inside of it.
- Abstract(参考訳): スパース辞書学習は、重ね合わせを攻撃し、モデルアクティベーションからより人間に理解可能な特徴を抽出する機械的解釈可能性において急速に成長する技術である。
抽出されたモノセマンティックな特徴に基づいてさらに疑問を呈する: 膨大な辞書特徴を接続する回路をどのように認識するか?
本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。
私たちのフレームワークは、分散のアウトオブディストリビューションに苦しむことが少なく、漸近的な複雑さの観点からより効率的であることが証明されます。
我々のフレームワークの基本単位は、埋め込み、注意出力、MPP出力を含む残ストリームに書き込む全てのモジュールから分解された辞書機能である。
あらゆるロジット、辞書機能、アテンションスコアから、すべてのトークンの下位レベルの辞書機能までトレースし、これらの解釈可能で局所的なモデル行動への貢献を計算します。
我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Efficient CNN with uncorrelated Bag of Features pooling [98.78384185493624]
Bag of Features (BoF)は、畳み込み層の複雑さを軽減するために最近提案されている。
本稿では,BoFプーリング上に構築した手法を用いて,学習辞書の項目が非冗長であることを保証する。
提案した戦略は、BoFの効率的な変種を生成し、追加のパラメータを使わずにその性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-22T09:00:30Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - PUDLE: Implicit Acceleration of Dictionary Learning by Backpropagation [4.081440927534577]
本稿では,PUDLE(Provable Unfolded Dictionary LEarning)による実験結果に関する最初の理論的証明を提供する。
我々は、損失の最小化、展開、収束のバックプロパゲーションについて強調する。
合成および画像復号化実験により,本研究の成果を補完する。
論文 参考訳(メタデータ) (2021-05-31T18:49:58Z) - Learning Deep Analysis Dictionaries -- Part II: Convolutional
Dictionaries [38.7315182732103]
非構造化辞書の代わりに畳み込み辞書を学習するディープ畳み込み解析辞書モデル(DeepCAM)を導入する。
L層DeepCAMは、畳み込み解析辞書のL層と、要素単位のソフトスレッディングペアから構成される。
We demonstrate that DeepCAM is a effective multilayer convolutional model and on single image super- resolution, achieves performance comparable with other method。
論文 参考訳(メタデータ) (2020-01-31T19:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。