論文の概要: Interpretability Illusions in the Generalization of Simplified Models
- arxiv url: http://arxiv.org/abs/2312.03656v2
- Date: Wed, 5 Jun 2024 15:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:55:26.091813
- Title: Interpretability Illusions in the Generalization of Simplified Models
- Title(参考訳): 単純化されたモデルの一般化における解釈可能性イリュージョン
- Authors: Dan Friedman, Andrew Lampinen, Lucas Dixon, Danqi Chen, Asma Ghandeharioun,
- Abstract要約: ディープラーニングシステムを研究する一般的な方法は、単純化されたモデル表現を使用することである。
このアプローチは、これらの単純化の結果が元のモデルに忠実であると仮定する。
単純化された表現がトレーニングセットの完全なモデルを正確に近似できたとしても、モデルの挙動を正確に把握できない可能性があることを示す。
- 参考スコア(独自算出の注目度): 30.124082589662574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common method to study deep learning systems is to use simplified model representations--for example, using singular value decomposition to visualize the model's hidden states in a lower dimensional space. This approach assumes that the results of these simplifications are faithful to the original model. Here, we illustrate an important caveat to this assumption: even if the simplified representations can accurately approximate the full model on the training set, they may fail to accurately capture the model's behavior out of distribution. We illustrate this by training Transformer models on controlled datasets with systematic generalization splits, including the Dyck balanced-parenthesis languages and a code completion task. We simplify these models using tools like dimensionality reduction and clustering, and then explicitly test how these simplified proxies match the behavior of the original model. We find consistent generalization gaps: cases in which the simplified proxies are more faithful to the original model on the in-distribution evaluations and less faithful on various tests of systematic generalization. This includes cases where the original model generalizes systematically but the simplified proxies fail, and cases where the simplified proxies generalize better. Together, our results raise questions about the extent to which mechanistic interpretations derived using tools like SVD can reliably predict what a model will do in novel situations.
- Abstract(参考訳): ディープラーニングシステムを研究する一般的な方法は、単純化されたモデル表現を使用することで、例えば、特異値分解を用いて、低次元空間におけるモデルの隠れ状態の可視化を行う。
このアプローチは、これらの単純化の結果が元のモデルに忠実であると仮定する。
ここでは、この仮定に重要な注意を払っている: 単純化された表現がトレーニングセットの完全なモデルを正確に近似できるとしても、モデルの振舞いを正確に把握できないかもしれない。
我々は、Dyckバランスの取れたパーセンシ言語やコード補完タスクを含む、体系的な一般化分割を伴う制御データセット上のTransformerモデルをトレーニングすることでこれを説明できる。
次元還元やクラスタリングといったツールを使ってこれらのモデルを単純化し、これらの単純化されたプロキシが元のモデルの振る舞いにどのようにマッチするかを明示的にテストする。
単純化されたプロキシが分布内評価において元のモデルに忠実であり、体系的一般化の様々なテストに忠実でない場合である。
これには、オリジナルのモデルを体系的に一般化するが、単純化されたプロキシは失敗し、単純化されたプロキシがより一般化するケースが含まれる。
この結果から,SVD などのツールを用いた機械的解釈が,新しい状況下でモデルがどのように機能するかを確実に予測できるかどうか,という疑問が浮かび上がっている。
関連論文リスト
- Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Consistent Counterfactuals for Deep Models [25.1271020453651]
ファクトファクトの例は、金融や医療診断といった重要な領域における機械学習モデルの予測を説明するために使用される。
本稿では,初期訓練条件に小さな変更を加えた深層ネットワークにおける実例に対するモデル予測の整合性について検討する。
論文 参考訳(メタデータ) (2021-10-06T23:48:55Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。