論文の概要: Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior
- arxiv url: http://arxiv.org/abs/2505.20076v1
- Date: Mon, 26 May 2025 14:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.532902
- Title: Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior
- Title(参考訳): Grokking ExPLAIND:モデル・データ・トレーニングの統一化とモデル行動研究への貢献
- Authors: Florian Eichin, Yupei Du, Philipp Mondorf, Barbara Plank, Michael A. Hedderich,
- Abstract要約: ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。
3つの視点をすべて統合した統合フレームワークであるExPLAINDを紹介します。
- 参考スコア(独自算出の注目度): 25.975757048963413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-hoc interpretability methods typically attribute a model's behavior to its components, data, or training trajectory in isolation. This leads to explanations that lack a unified view and may miss key interactions. While combining existing methods or applying them at different training stages offers broader insights, these approaches usually lack theoretical support. In this work, we present ExPLAIND, a unified framework that integrates all three perspectives. First, we generalize recent work on gradient path kernels, which reformulate models trained by gradient descent as a kernel machine, to more realistic training settings. Empirically, we find that both a CNN and a Transformer model are replicated accurately by this reformulation. Second, we derive novel parameter- and step-wise influence scores from the kernel feature maps. We show their effectiveness in parameter pruning that is comparable to existing methods, reinforcing their value for model component attribution. Finally, jointly interpreting model components and data over the training process, we leverage ExPLAIND to analyze a Transformer that exhibits Grokking. Among other things, our findings support previously proposed stages of Grokking, while refining the final phase as one of alignment of input embeddings and final layers around a representation pipeline learned after the memorization phase. Overall, ExPLAIND provides a theoretically grounded, unified framework to interpret model behavior and training dynamics.
- Abstract(参考訳): ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。
これにより、統一された視点が欠如し、重要な相互作用を見逃す可能性がある説明が導かれる。
既存の手法を組み合わせるか、異なる訓練段階に適用すれば、より広範な洞察が得られるが、これらのアプローチは理論的なサポートを欠いている。
本稿では,3つの視点をすべて統合した統一フレームワークであるExPLAINDを紹介する。
まず、勾配勾配から学習したモデルをカーネルマシンとして再構成する勾配経路カーネルに関する最近の研究を、より現実的なトレーニング設定に一般化する。
経験的に、CNNとTransformerモデルの両方が、この修正によって正確に複製されていることが分かる。
第二に、カーネルの特徴マップから、新しいパラメータとステップワイドな影響スコアを導出する。
既存の手法に匹敵するパラメータ解析において,モデルコンポーネントの属性に対する値の強化効果を示す。
最後に、トレーニングプロセス上でモデルコンポーネントとデータを共同で解釈し、ExPLAINDを利用してGrokkingを示すTransformerを分析する。
これまでに提案したGrokkingの段階をサポートするとともに,入力埋め込みのアライメントとして最終段階を精製し,暗記後に学習した表現パイプラインの周辺に最終層を配置した。
全体として、ExPLAINDはモデル動作とトレーニングのダイナミクスを解釈するための理論的に基礎付けられた統一されたフレームワークを提供する。
関連論文リスト
- Invariance Pair-Guided Learning: Enhancing Robustness in Neural Networks [0.0]
トレーニングフェーズを通じてニューラルネットワークを誘導する手法を提案する。
従来の勾配降下法を補完する補正勾配を形成する。
ColoredMNIST、Waterbird-100、CelebANISTデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-02-26T09:36:00Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Pair the Dots: Jointly Examining Training History and Test Stimuli for
Model Interpretability [44.60486560836836]
モデルからの予測は、学習履歴とテスト刺激の組み合わせによって行われる。
モデルの予測を解釈する既存の方法は、テスト刺激または学習履歴の1つの側面しかキャプチャできない。
本研究では,学習履歴とテスト刺激を共同で調べることで,モデルの予測を解釈しやすくするための,効率的かつ異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:45:01Z) - Monocular Human Pose and Shape Reconstruction using Part Differentiable
Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。
本稿では,ボディセグメンテーションを重要な監視対象として紹介する。
部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文 参考訳(メタデータ) (2020-03-24T14:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。