論文の概要: Self-Ablating Transformers: More Interpretability, Less Sparsity
- arxiv url: http://arxiv.org/abs/2505.00509v1
- Date: Thu, 01 May 2025 13:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.310181
- Title: Self-Ablating Transformers: More Interpretability, Less Sparsity
- Title(参考訳): 自己非難型トランスフォーマー: 解釈可能性の向上とスパシリティの低減
- Authors: Jeremias Ferrao, Luhan Mikaelson, Keenan Pepper, Natalia Perez-Campanero Antolin,
- Abstract要約: 機械学習における直感の高まりは、スパーシリティと解釈可能性の関連性を示唆している。
本稿では,言語変換器の文脈において,この接続アンテホックを調査するための新しい自己アブレーション機構を提案する。
自己アブレーションは、より局所的な回路、集中した特徴表現、ニューロンの特殊化に繋がる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing intuition in machine learning suggests a link between sparsity and interpretability. We introduce a novel self-ablation mechanism to investigate this connection ante-hoc in the context of language transformers. Our approach dynamically enforces a k-winner-takes-all constraint, forcing the model to demonstrate selective activation across neuron and attention units. Unlike post-hoc methods that analyze already-trained models, our approach integrates interpretability directly into model training, promoting feature localization from inception. Training small models on the TinyStories dataset and employing interpretability tests, we find that self-ablation leads to more localized circuits, concentrated feature representations, and increased neuron specialization without compromising language modelling performance. Surprisingly, our method also decreased overall sparsity, indicating that self-ablation promotes specialization rather than widespread inactivity. This reveals a complex interplay between sparsity and interpretability, where decreased global sparsity can coexist with increased local specialization, leading to enhanced interpretability. To facilitate reproducibility, we make our code available at https://github.com/keenanpepper/self-ablating-transformers.
- Abstract(参考訳): 機械学習における直感の高まりは、スパーシリティと解釈可能性の関連性を示唆している。
本稿では,言語変換器の文脈において,この接続アンテホックを調査するための新しい自己アブレーション機構を提案する。
我々のアプローチはk-winner-all constraintを動的に強制し、ニューロンと注意ユニット間の選択的活性化をモデルに示さざるを得ない。
既に訓練されたモデルを分析するポストホック法とは異なり、我々の手法は解釈可能性を直接モデルトレーニングに統合し、開始から特徴ローカライゼーションを促進する。
TinyStoriesデータセット上の小さなモデルをトレーニングし、解釈可能性テストを用いて、自己アブレーションはより局所化された回路、集中した特徴表現、言語モデリング性能を損なうことなくニューロンの特殊化を促進する。
驚いたことに,本手法は全体としての空間性も低下し,自己アブレーションは広範囲な不活性よりも特殊化を促進することが示唆された。
このことは、疎さと解釈可能性の間の複雑な相互作用を明らかにし、グローバルな疎さの減少は局所的な特殊化の増大と共存し、解釈可能性の向上につながる。
再現性を促進するため、私たちはhttps://github.com/keenanpepper/self-ablating-transformers.comでコードを公開しています。
関連論文リスト
- Analyze Feature Flow to Enhance Interpretation and Steering in Language Models [3.8498574327875947]
本研究では,スパースオートエンコーダによって発見される特徴を,大規模言語モデルの連続的な層にわたって体系的にマッピングする手法を提案する。
データフリーなコサイン類似性技術を使用することで、各ステージで特定の機能が持続、変換、あるいは最初に現れるかを追跡できる。
論文 参考訳(メタデータ) (2025-02-05T09:39:34Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning [38.09011520275557]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。
本稿では、ニューラルネットワークの動作をCILに適応させるニューラルネットワークユニットダイナミクスを調整し、新しい種類のコネクショナリストモデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:47:03Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Guiding Attention for Self-Supervised Learning with Transformers [24.785500242464646]
双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
論文 参考訳(メタデータ) (2020-10-06T00:04:08Z) - Learning Representations that Support Extrapolation [39.84463809100903]
我々は外挿を支援する表現を学習する上での課題について考察する。
本稿では,外挿の段階的評価を可能にする新しい視覚的類似性ベンチマークを提案する。
また、オブジェクト間の関係を強調する表現を促進するシンプルな手法である時間的文脈正規化を導入する。
論文 参考訳(メタデータ) (2020-07-09T20:53:45Z) - Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。
エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。
神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文 参考訳(メタデータ) (2020-07-09T15:04:26Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。