論文の概要: Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars
- arxiv url: http://arxiv.org/abs/2312.01429v1
- Date: Sun, 3 Dec 2023 15:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:18:21.992711
- Title: Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars
- Title(参考訳): トランスフォーマーはミオピック法では解釈できない:境界ダイク文法を用いたケーススタディ
- Authors: Kaiyue Wen, Yuchen Li, Bingbin Liu, Andrej Risteski
- Abstract要約: 解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
- 参考スコア(独自算出の注目度): 36.780346257061495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability methods aim to understand the algorithm implemented by a
trained model (e.g., a Transofmer) by examining various aspects of the model,
such as the weight matrices or the attention patterns. In this work, through a
combination of theoretical results and carefully controlled experiments on
synthetic data, we take a critical view of methods that exclusively focus on
individual parts of the model, rather than consider the network as a whole. We
consider a simple synthetic setup of learning a (bounded) Dyck language.
Theoretically, we show that the set of models that (exactly or approximately)
solve this task satisfy a structural characterization derived from ideas in
formal languages (the pumping lemma). We use this characterization to show that
the set of optima is qualitatively rich; in particular, the attention pattern
of a single layer can be ``nearly randomized'', while preserving the
functionality of the network. We also show via extensive experiments that these
constructions are not merely a theoretical artifact: even after severely
constraining the architecture of the model, vastly different solutions can be
reached via standard training. Thus, interpretability claims based on
inspecting individual heads or weight matrices in the Transformer can be
misleading.
- Abstract(参考訳): 解釈可能性法は、トレーニングされたモデル(例えばTransofmer)によって実装されたアルゴリズムを理解することを目的として、重量行列や注意パターンなどのモデルの様々な側面を調べる。
本研究では,理論的な結果と注意深く制御された合成データ実験を組み合わせることで,ネットワーク全体を考慮せず,モデルの個々の部分のみに焦点を当てた手法を批判的に捉える。
我々は(有界な)Dyck言語を学ぶための単純な合成セットを考える。
理論的には、この課題を(実際にあるいは概ね)解くモデルの集合は、形式言語(パンピング補題)のアイデアに由来する構造的特徴付けを満たす。
特に,ネットワークの機能を維持しつつ,単一レイヤの注意パターンを ‘nearly randomized'' にすることができる。
モデルのアーキテクチャを厳しく制約した後でも、標準的なトレーニングを通じて、非常に異なるソリューションに到達することが可能です。
これにより、変圧器内の個々の頭部や重量行列の検査に基づく解釈可能性クレームを誤解させることができる。
関連論文リスト
- Interpretability Illusions in the Generalization of Simplified Models [31.919954514762544]
ディープラーニングシステムを研究する一般的な方法は、単純化されたモデル表現を使用することである。
このアプローチは、これらの単純化された結果が元のモデルに忠実であると仮定する。
単純化された表現がトレーニングセットの完全なモデルを正確に近似できたとしても、モデルの挙動を正確に把握できない可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-06T18:25:53Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space
Communication [10.015318634895959]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Learning Invariances for Interpretability using Supervised VAE [0.0]
我々はモデルを解釈する手段としてモデル不変性を学習する。
可変オートエンコーダ(VAE)の教師型形式を提案する。
我々は、我々のモデルと特徴属性の手法を組み合わせることで、モデルの意思決定プロセスについてよりきめ細やかな理解を得られることを示す。
論文 参考訳(メタデータ) (2020-07-15T10:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。