論文の概要: Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment
- arxiv url: http://arxiv.org/abs/2604.25779v1
- Date: Tue, 28 Apr 2026 15:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.93098
- Title: Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment
- Title(参考訳): MNIST補助論理蒸留実験からの証拠
- Authors: Chayanon Kitkana, Shivam Arora,
- Abstract要約: MNIST補助ロジット蒸留実験では、非クラスロジットのみを蒸留しても意図しない教師特性を得ることができる。
単段階勾配降下仮定の下では、サブリミナル学習理論は、この効果を特性と蒸留勾配の整合性に起因する。
我々は、トレーニングを通して、勾配のアライメントは弱いが一貫して正であることを示し、特性獲得に因果的に寄与することを示した。
- 参考スコア(独自算出の注目度): 1.0026496861838448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the MNIST auxiliary logit distillation experiment, a student can acquire an unintended teacher trait despite distilling only on no-class logits through a phenomenon called subliminal learning. Under a single-step gradient descent assumption, subliminal learning theory attributes this effect to alignment between the trait and distillation gradients, but does not guarantee that this alignment persists in a multi-step setting. We empirically show that gradient alignment remains weakly but consistently positive throughout training and causally contributes to trait acquisition. We show that a mitigation method called liminal training works by attenuating the alignment and fails to stop trait acquisition in this setup. These results suggest that mitigation methods that operate in this regime may not reliably suppress trait acquisition when the first-order drive dominates.
- Abstract(参考訳): MNIST補助ロジット蒸留実験では、非クラスロジットのみを蒸留しても意図しない教師特性を、サブリミナルラーニングと呼ばれる現象によって取得することができる。
単段階勾配勾配の仮定の下では、サブリミナル学習理論は、この効果は特性と蒸留勾配のアライメントに起因するが、このアライメントが多段階的な設定で持続することを保証しない。
実験により, 勾配アライメントはトレーニングを通して弱いが連続的に正であり, 特性獲得に因果的に寄与することが示された。
我々は,リミナルトレーニングと呼ばれる緩和手法がアライメントを減衰させることで機能し,この設定における特性獲得を阻止できないことを示す。
これらの結果から,第1次駆動が支配的となると,この体制で運用する緩和手法は特性獲得を確実に抑制しない可能性が示唆された。
関連論文リスト
- Attention Sinks Induce Gradient Sinks [41.85762183893736]
因果マスクの下では、注意シンクが顕著な勾配濃度を誘導できることを示す。
大規模な活性化は、この局所的な勾配圧力に対する適応応答として理解することができる。
これらの結果は、勾配シンクがアテンションシンクと大規模なアクティベーションをリンクする重要なトレーニングタイムメディエータである、という解釈を支持する。
論文 参考訳(メタデータ) (2026-03-18T14:31:21Z) - Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis [33.341277146439275]
分散整合蒸留(DMD)は、低推論コストで高品質な生成を可能にするために、多段階発生器をその数段階と整列させる。
本稿では, 蒸留工程の役割を明示的に解消する役割分離蒸留フレームワークを提案する。
本手法は, 単純さに拘わらず, サンプルの多様性を保ちながら, テキスト・画像実験における最先端の手法と同等の視覚的品質を維持しながら, 標本の多様性を保っている。
論文 参考訳(メタデータ) (2026-02-03T05:45:25Z) - VarDiU: A Variational Diffusive Upper Bound for One-Step Diffusion Distillation [16.15071476996734]
近年, 拡散蒸留法は, 1000段階の教師拡散モデルを1段階の生徒生成装置に圧縮している。
既存のアプローチのほとんどは、生徒のスコア関数を介して勾配を近似した拡散発散を用いて生徒モデルを訓練する。
本研究では, 拡散蒸留に直接適用可能な不偏勾配推定器を有する変分拡散性上界であるVarDiUを提案する。
論文 参考訳(メタデータ) (2025-08-28T10:47:50Z) - Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
我々は,教師のスコア管理を完全に禁止する,新しい研修方法のファミリーを紹介する。
教師の重みによる学生モデルの初期化は依然として重要な課題である。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。
教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文 参考訳(メタデータ) (2023-01-30T14:25:02Z) - Adam: Dense Retrieval Distillation with Adaptive Dark Examples [104.01735794498767]
本稿では,教師が持つ暗黒知識を適応暗黒エクストリームで伝達する知識蒸留フレームワークであるADAMを提案する。
2つの広く利用されているベンチマークで実験を行い、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-12-20T12:03:19Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。