論文の概要: The Gradient-Causal Gap: Why Gradient Importance Fails on Complex Tasks
- arxiv url: http://arxiv.org/abs/2602.01442v2
- Date: Thu, 05 Feb 2026 01:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.84619
- Title: The Gradient-Causal Gap: Why Gradient Importance Fails on Complex Tasks
- Title(参考訳): グラディエント・カウサルギャップ:なぜグラディエントの重要性が複雑なタスクに欠けているのか
- Authors: Donald Ye,
- Abstract要約: プルーニング実験により、勾配の等級は単に不正確であるだけでなく、テクスト予測不能であることが示された。
ハイグレードな「ハイデンヒーロー」の除去は、OODの精度を常に損なう。
この予測不可能さは、勾配ベースのプルーニングがモデルの能力を確実に保持できないことを意味する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Removing ''important'' high-gradient components from a neural network can improve generalization, while removing unimportant'' low-gradient components can destroy it. We demonstrate this paradox by formalizing the \textit{Gradient-Causal Gap} in Transformers trained on algorithmic tasks. While gradient magnitude and causal importance align on simple tasks ($ρ=0.73$ for reversal), this relationship collapses as task complexity increases ($ρ=0.32$ for sorting), sometimes becoming inverted ($ρ=-0.11$). Pruning experiments reveal that gradient magnitude is not merely inaccurate but \textit{unpredictably} so. Removing low-gradient ''Hidden Heroes'' consistently devastates OOD accuracy ($-32\%$). Removing high-gradient ''Gradient Bloats'' is a coin flip: harmless in most seeds (indicating optimization noise), catastrophic in others (indicating overfitting circuits). This unpredictability means gradient-based pruning cannot reliably preserve model capabilities.
- Abstract(参考訳): ニューラルネットワークから'重要'な高次成分を取り除き、非重要'な低次成分を取り除き、一般化を改善することができる。
このパラドックスは,アルゴリズムタスクを訓練したトランスフォーマーにおいて,textit{Gradient-Causal Gap} を形式化する。
勾配の等級と因果的重要性は単純なタスク (ρ=0.73$ for reversal) と一致するが、この関係はタスクの複雑さが増大する(ρ=0.32$ for sorting)と崩壊し、時には反転する(ρ=-0.11$)。
プルーニング実験により、勾配の等級は単に不正確なだけでなく、 \textit{unpredictably} であることが明らかになった。
低勾配の「ハイデンヒーロー」を除去すると、OODの精度が一変する(-32\%$)。
高勾配の「グラディエント・ブローツ」を除去することはコインフリップであり、ほとんどの種子では無害(最適化ノイズの表示)、他では破滅的(オーバーフィッティング回路の表示)である。
この予測不可能さは、勾配ベースのプルーニングがモデルの能力を確実に保持できないことを意味する。
関連論文リスト
- LoRIF: Low-Rank Influence Functions for Scalable Training Data Attribution [62.830878652285406]
トレーニングデータ属性は、モデルの予測に最も影響したトレーニング例を特定する。
LoRIFは、両方のボトルネックに対処するために、勾配の低ランク構造を利用する。
数百万のサンプルでデータセットでトレーニングされた0.1Bから70Bパラメータのモデルで、LoRIFは最大20$timesのストレージ削減とクエリ時の高速化を実現している。
論文 参考訳(メタデータ) (2026-01-29T16:18:34Z) - Mitigating Gradient Overlap in Deep Residual Networks with Gradient Normalization for Improved Non-Convex Optimization [0.0]
ディープラーニングにおいて、Residual Networks(ResNets)は、消滅する問題に対処する上で有効であることが証明されている。
ResNetのスキップ接続はオーバーラップし、学習した変換とスキップ接続がグラデーションで結合される。
重なりを管理する手法としてZ-score Normalization (ZNorm) を検討した。
論文 参考訳(メタデータ) (2024-10-28T21:54:44Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - Tight Risk Bounds for Gradient Descent on Separable Data [33.593203156666746]
分離線形分類に適用した非正規化勾配法の一般化特性について検討した。
リスク低い境界は、この文脈で最初のものであり、与えられたテール崩壊率に対する上限の厳密性を確立する。
論文 参考訳(メタデータ) (2023-03-02T10:31:58Z) - Loss shaping enhances exact gradient learning with Eventprop in spiking neural networks [0.1350479308585481]
Eventpropは、スパイキングニューラルネットワークの正確な勾配の勾配勾配のアルゴリズムである。
我々は、GPU強化ニューラルネットワークフレームワークにEventpropを実装した。
Spiking Heidelberg DigitsとSpking Speech Commandsデータセットで、スパイクニューラルネットワークをトレーニングします。
論文 参考訳(メタデータ) (2022-12-02T15:20:58Z) - Fast Gradient Non-sign Methods [67.56549792690706]
Fast Gradient Non-sign Method (FGNM) は一般的なルーチンであり、グラデーションベースの攻撃において従来の$sign$操作をシームレスに置き換えることができる。
我々の手法は、textbf27.5% と textbf9.5% でそれらを上回ります。
論文 参考訳(メタデータ) (2021-10-25T08:46:00Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Boosting Gradient for White-Box Adversarial Attacks [60.422511092730026]
そこで本研究では,ADV-ReLUと呼ばれる,勾配に基づくホワイトボックス攻撃アルゴリズムの性能向上を目的とした,汎用的な逆例生成手法を提案する。
提案手法では,損失関数とネットワーク入力の勾配を算出し,その値をスコアにマップし,その一部を選択して誤導勾配を更新する。
論文 参考訳(メタデータ) (2020-10-21T02:13:26Z) - Tangent-Space Gradient Optimization of Tensor Network for Machine
Learning [0.8701566919381223]
ディープラーニングモデルの勾配に基づく最適化手法は、勾配の消滅と爆発的な問題に悩まされている。
本研究では,確率モデルに対するタンジェント空間勾配最適化(TSGO)を提案する。
数値計算の結果,市販のAdamと比較してTSGOの収束性は良好であった。
論文 参考訳(メタデータ) (2020-01-10T16:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。