論文の概要: Unifying and Verifying Mechanistic Interpretations: A Case Study with Group Operations
- arxiv url: http://arxiv.org/abs/2410.07476v2
- Date: Fri, 11 Oct 2024 22:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 16:56:23.213047
- Title: Unifying and Verifying Mechanistic Interpretations: A Case Study with Group Operations
- Title(参考訳): 機械的解釈の統一と検証--グループ運用を事例として
- Authors: Wilson Wu, Louis Jaburi, Jacob Drori, Jason Gross,
- Abstract要約: 機械論的解釈可能性に関する最近の研究は、有限群の二項演算で訓練されたニューラルネットワークによって実行される計算のリバースエンジニアリングに焦点が当てられている。
本研究では,この課題で訓練した一層ニューラルネットワークの内部構造について検討し,未同定構造を明らかにした。
我々は、そのようなモデルのより完全な記述を作成し、以前の作品の説明を統一する。
- 参考スコア(独自算出の注目度): 0.8305049591788082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent line of work in mechanistic interpretability has focused on reverse-engineering the computation performed by neural networks trained on the binary operation of finite groups. We investigate the internals of one-hidden-layer neural networks trained on this task, revealing previously unidentified structure and producing a more complete description of such models that unifies the explanations of previous works. Notably, these models approximate equivariance in each input argument. We verify that our explanation applies to a large fraction of networks trained on this task by translating it into a compact proof of model performance, a quantitative evaluation of model understanding. In particular, our explanation yields a guarantee of model accuracy that runs in 30% the time of brute force and gives a >=95% accuracy bound for 45% of the models we trained. We were unable to obtain nontrivial non-vacuous accuracy bounds using only explanations from previous works.
- Abstract(参考訳): 機械論的解釈可能性に関する最近の研究は、有限群の二項演算で訓練されたニューラルネットワークによって実行される計算のリバースエンジニアリングに焦点が当てられている。
我々は、このタスクで訓練された一層ニューラルネットワークの内部を調査し、未同定構造を明らかにし、過去の作品の説明を統一するモデルについてより完全な記述を生成する。
特に、これらのモデルは各入力引数の同値である。
我々は,モデル理解の定量的評価であるモデル性能のコンパクトな証明に翻訳することで,この課題を訓練した少数のネットワークに適用できることを確認した。
特に、この説明は、ブルート力の30%の時間で走るモデルの精度を保証し、トレーニングしたモデルの45%に対して >=95% の精度を与える。
従来の研究からの説明だけでは,非自明な非空洞的精度境界が得られなかった。
関連論文リスト
- Combining Causal Models for More Accurate Abstractions of Neural Networks [10.115827125021438]
因果抽象化は、ネットワークがアルゴリズムを実装した際の正確な概念を提供する。
現実的な設定における典型的な問題は、アルゴリズムがネットワークを完全に忠実に抽象化していないことである。
我々は,より忠実なネットワーク表現を生成するために,異なる単純な高レベルモデルを組み合わせるソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-14T14:14:43Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Arithmetic in Transformers Explained [1.8434042562191815]
我々は、加算、減算、または両方で訓練された44個の自己回帰トランスモデルを解析する。
加算モデルが共通論理アルゴリズムに収束し、ほとんどのモデルが99.999%の精度で予測できることを示す。
我々は,これらのアルゴリズム回路を定義し,発見し,視覚化するために,機械的解釈可能性ツールの再利用ライブラリを導入する。
論文 参考訳(メタデータ) (2024-02-04T21:33:18Z) - Robust Nonparametric Hypothesis Testing to Understand Variability in
Training Neural Networks [5.8490454659691355]
本稿では,閾値決定前のネットワークの出力に基づく分類モデル間の密接度の新しい尺度を提案する。
我々の測度は、頑健な仮説テストフレームワークに基づいており、訓練されたモデルから派生した他の量に適応することができる。
論文 参考訳(メタデータ) (2023-10-01T01:44:35Z) - VCNet: A self-explaining model for realistic counterfactual generation [52.77024349608834]
事実的説明は、機械学習の決定を局所的に説明するための手法のクラスである。
本稿では,予測器と対実生成器を組み合わせたモデルアーキテクチャであるVCNet-Variational Counter Netを提案する。
我々はVCNetが予測を生成でき、また、別の最小化問題を解くことなく、反現実的な説明を生成できることを示した。
論文 参考訳(メタデータ) (2022-12-21T08:45:32Z) - Reconciliation of Pre-trained Models and Prototypical Neural Networks in
Few-shot Named Entity Recognition [35.34238362639678]
本研究では,このようなミスマッチを経験的・理論的根拠と整合させる一線符号正規化法を提案する。
我々の研究は、数発のエンティティ認識における一般的な問題に対処するための分析的な視点も提供します。
論文 参考訳(メタデータ) (2022-11-07T02:33:45Z) - Harnessing the Power of Explanations for Incremental Training: A
LIME-Based Approach [6.244905619201076]
この研究では、モデル説明がフィードフォワードトレーニングにフィードバックされ、モデルをより一般化するのに役立つ。
このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)によるカスタム重み付き損失を取り入れている。
提案したカスタムトレーニング手順は、インクリメンタルラーニングセットアップのすべてのフェーズにおいて、0.5%から1.5%までの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2022-11-02T18:16:17Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Building Reliable Explanations of Unreliable Neural Networks: Locally
Smoothing Perspective of Model Interpretation [0.0]
本稿では,ニューラルネットワークの予測を確実に説明するための新しい手法を提案する。
本手法は,モデル予測の損失関数における平滑な景観の仮定に基づいて構築される。
論文 参考訳(メタデータ) (2021-03-26T08:52:11Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Interpreting Graph Neural Networks for NLP With Differentiable Edge
Masking [63.49779304362376]
グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。
本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。
モデルの性能を劣化させることなく,多数のエッジを落とせることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:51:19Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - The Gaussian equivalence of generative models for learning with shallow
neural networks [30.47878306277163]
本研究では,事前学習した生成モデルから得られたデータに基づいて学習したニューラルネットワークの性能について検討する。
この等価性を裏付ける厳密で解析的で数値的な証拠を3本提供します。
これらの結果は、現実的なデータを持つ機械学習モデルの理論研究への有効な道を開く。
論文 参考訳(メタデータ) (2020-06-25T21:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。