論文の概要: Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars
- arxiv url: http://arxiv.org/abs/2312.01429v1
- Date: Sun, 3 Dec 2023 15:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:18:21.992711
- Title: Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars
- Title(参考訳): トランスフォーマーはミオピック法では解釈できない:境界ダイク文法を用いたケーススタディ
- Authors: Kaiyue Wen, Yuchen Li, Bingbin Liu, Andrej Risteski
- Abstract要約: 解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
- 参考スコア(独自算出の注目度): 36.780346257061495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability methods aim to understand the algorithm implemented by a
trained model (e.g., a Transofmer) by examining various aspects of the model,
such as the weight matrices or the attention patterns. In this work, through a
combination of theoretical results and carefully controlled experiments on
synthetic data, we take a critical view of methods that exclusively focus on
individual parts of the model, rather than consider the network as a whole. We
consider a simple synthetic setup of learning a (bounded) Dyck language.
Theoretically, we show that the set of models that (exactly or approximately)
solve this task satisfy a structural characterization derived from ideas in
formal languages (the pumping lemma). We use this characterization to show that
the set of optima is qualitatively rich; in particular, the attention pattern
of a single layer can be ``nearly randomized'', while preserving the
functionality of the network. We also show via extensive experiments that these
constructions are not merely a theoretical artifact: even after severely
constraining the architecture of the model, vastly different solutions can be
reached via standard training. Thus, interpretability claims based on
inspecting individual heads or weight matrices in the Transformer can be
misleading.
- Abstract(参考訳): 解釈可能性法は、トレーニングされたモデル(例えばTransofmer)によって実装されたアルゴリズムを理解することを目的として、重量行列や注意パターンなどのモデルの様々な側面を調べる。
本研究では,理論的な結果と注意深く制御された合成データ実験を組み合わせることで,ネットワーク全体を考慮せず,モデルの個々の部分のみに焦点を当てた手法を批判的に捉える。
我々は(有界な)Dyck言語を学ぶための単純な合成セットを考える。
理論的には、この課題を(実際にあるいは概ね)解くモデルの集合は、形式言語(パンピング補題)のアイデアに由来する構造的特徴付けを満たす。
特に,ネットワークの機能を維持しつつ,単一レイヤの注意パターンを ‘nearly randomized'' にすることができる。
モデルのアーキテクチャを厳しく制約した後でも、標準的なトレーニングを通じて、非常に異なるソリューションに到達することが可能です。
これにより、変圧器内の個々の頭部や重量行列の検査に基づく解釈可能性クレームを誤解させることができる。
関連論文リスト
- Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクに対して印象的な能力を示してきたが、構成上の問題に対するパフォーマンスは議論の的となっている。
本研究では,変圧器が構成課題に対してどのように振る舞うかを考察する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Learning Invariances for Interpretability using Supervised VAE [0.0]
我々はモデルを解釈する手段としてモデル不変性を学習する。
可変オートエンコーダ(VAE)の教師型形式を提案する。
我々は、我々のモデルと特徴属性の手法を組み合わせることで、モデルの意思決定プロセスについてよりきめ細やかな理解を得られることを示す。
論文 参考訳(メタデータ) (2020-07-15T10:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。