論文の概要: Interpretability Illusions in the Generalization of Simplified Models
- arxiv url: http://arxiv.org/abs/2312.03656v1
- Date: Wed, 6 Dec 2023 18:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 13:59:17.275028
- Title: Interpretability Illusions in the Generalization of Simplified Models
- Title(参考訳): 単純化モデルの一般化における解釈可能性錯覚
- Authors: Dan Friedman, Andrew Lampinen, Lucas Dixon, Danqi Chen, Asma
Ghandeharioun
- Abstract要約: ディープラーニングシステムを研究する一般的な方法は、単純化されたモデル表現を使用することである。
このアプローチは、これらの単純化された結果が元のモデルに忠実であると仮定する。
単純化された表現がトレーニングセットの完全なモデルを正確に近似できたとしても、モデルの挙動を正確に把握できない可能性があることを示す。
- 参考スコア(独自算出の注目度): 31.919954514762544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common method to study deep learning systems is to use simplified model
representations -- for example, using singular value decomposition to visualize
the model's hidden states in a lower dimensional space. This approach assumes
that the results of these simplified are faithful to the original model. Here,
we illustrate an important caveat to this assumption: even if the simplified
representations can accurately approximate the full model on the training set,
they may fail to accurately capture the model's behavior out of distribution --
the understanding developed from simplified representations may be an illusion.
We illustrate this by training Transformer models on controlled datasets with
systematic generalization splits. First, we train models on the Dyck
balanced-parenthesis languages. We simplify these models using tools like
dimensionality reduction and clustering, and then explicitly test how these
simplified proxies match the behavior of the original model on various
out-of-distribution test sets. We find that the simplified proxies are
generally less faithful out of distribution. In cases where the original model
generalizes to novel structures or deeper depths, the simplified versions may
fail, or generalize better. This finding holds even if the simplified
representations do not directly depend on the training distribution. Next, we
study a more naturalistic task: predicting the next character in a dataset of
computer code. We find similar generalization gaps between the original model
and simplified proxies, and conduct further analysis to investigate which
aspects of the code completion task are associated with the largest gaps.
Together, our results raise questions about the extent to which mechanistic
interpretations derived using tools like SVD can reliably predict what a model
will do in novel situations.
- Abstract(参考訳): ディープラーニングシステムを研究する一般的な方法は、単純化されたモデル表現(例えば、低次元空間におけるモデルの隠れ状態の可視化に特異値分解を使用する)を使用することである。
このアプローチは、これらの単純化の結果が元のモデルに忠実であると仮定する。
ここでは、この仮定に重要な注意が必要である: 単純化された表現がトレーニングセットの完全なモデルを正確に近似できるとしても、モデルの振る舞いを分布から正確に捉えることができないかもしれない。
系統的な一般化分割を伴う制御データセット上でのTransformerモデルのトレーニングによってこれを説明できる。
まず、dyck balanced-parenthesis言語でモデルをトレーニングします。
次元の縮小やクラスタリングといったツールを使用してこれらのモデルを単純化し、これらの単純化されたプロキシが様々な分散テストセット上の元のモデルの振る舞いにどのようにマッチするかを明示的にテストします。
単純化されたプロキシは一般に分布から外れた忠実さを欠いている。
元のモデルが新しい構造や深い深さに一般化する場合、単純化されたバージョンは失敗するか、より良く一般化する。
この発見は、単純化された表現がトレーニング分布に直接依存していない場合でも成り立つ。
次に、コンピュータコードのデータセットで次の文字を予測するという、より自然なタスクについて研究する。
元のモデルと単純化されたプロキシの類似した一般化ギャップを発見し、コード補完タスクのどの側面が最大のギャップと関連しているかを更に分析する。
この結果から,SVD などのツールを用いた機械的解釈が,新しい状況下でモデルがどのように機能するかを確実に予測できるかどうか,という疑問が浮かび上がっている。
関連論文リスト
- Transformers are uninterpretable with myopic methods: a case study with
bounded Dyck grammars [36.780346257061495]
解釈可能性法は、訓練されたモデルによって実装されたアルゴリズムを理解することを目的としている。
私たちは、モデルの個々の部分にのみフォーカスするメソッドの批判的な見解を取ります。
論文 参考訳(メタデータ) (2023-12-03T15:34:46Z) - Globally Interpretable Graph Learning via Distribution Matching [12.885580925389352]
我々は、まだ十分に研究されていない重要な質問に答えることを目指している。グラフ学習手順のグローバルな解釈を提供するには、どうすればよいのか?
我々は,この問題を,学習過程を支配する高レベルかつ人間の知能なパターンを蒸留することを目的とした,グローバルな解釈可能なグラフ学習として定式化する。
本稿では,解釈に基づいて学習したモデルの忠実度を評価するために,新しいモデル忠実度尺度を提案する。
論文 参考訳(メタデータ) (2023-06-18T00:50:36Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Consistent Counterfactuals for Deep Models [25.1271020453651]
ファクトファクトの例は、金融や医療診断といった重要な領域における機械学習モデルの予測を説明するために使用される。
本稿では,初期訓練条件に小さな変更を加えた深層ネットワークにおける実例に対するモデル予測の整合性について検討する。
論文 参考訳(メタデータ) (2021-10-06T23:48:55Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。