論文の概要: Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer
- arxiv url: http://arxiv.org/abs/2603.06698v1
- Date: Thu, 05 Mar 2026 05:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.889437
- Title: Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer
- Title(参考訳): 容量制限型クロスモーダルトランスファーにおける不斉蒸留と情報保持
- Authors: Kabir Thayani,
- Abstract要約: 我々は,500Mパラメータのグローバルビジョン変換器(CLIP ViT-B/32)を厳密に容量制限された局所受容野CNNに蒸留する際の次元崩壊現象について検討した。
頑健性を見極めることで、この81%の効果的次元の減少が教師固有のノイズ免疫をなくすことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation between asymmetric architectures often induces severe geometric constraints on the learned representation space. In this work, we investigate the Dimensional Collapse phenomenon when distilling a 500M parameter global Vision Transformer (CLIP ViT-B/32) into strictly capacity-constrained, local-receptive-field CNNs (0.5M to 8.0M parameters) on the CIFAR-10 dataset. By employing strictly centered Singular Value Decomposition (SVD) and Variance-based Shannon Entropy Effective Rank, we isolate true structural variance from mean-vector artifacts. Our empirical results demonstrate a capacity-agnostic phase transition: while the Teacher exhibits an Effective Rank of 88.68, all Student models experience severe dimensional collapse to an intrinsic Effective Rank of ~16. By probing robustness, we uncover that this 81% reduction in effective dimensionality strips away the Teacher's inherent noise immunity (which retains 89.35% accuracy under σ=0.1 Gaussian noise). Furthermore, information-theoretic analysis using InfoNCE reveals a critical trade-off within this bottleneck: excess Student capacity densely packs the collapsed subspace for clean data, but induces severe brittleness (43.76% at σ=0.1). Conversely, extreme capacity constraints (0.5M parameters) act as a robust low-pass filter, preserving higher noise immunity (54.84%). Explicit input augmentation fails to restore the larger model's robustness, proving this fragility is a fundamental geometric limitation of asymmetric cosine distillation.
- Abstract(参考訳): 非対称アーキテクチャ間の知識蒸留は、しばしば学習された表現空間に厳しい幾何学的制約をもたらす。
本研究では,500Mパラメータのグローバルビジョン変換器(CLIP ViT-B/32)を,CIFAR-10データセット上の厳密に容量制限された局所受容場CNN(0.5M〜8.0Mパラメータ)に蒸留した場合の次元崩壊現象について検討する。
厳密な集中型特異値分解(SVD)と可変型シャノンエントロピー有効ランク(Shannon Entropy Effective Rank)を用いて、平均ベクトルアーティファクトから真の構造的差異を分離する。
教員は88.68の有効ランクを示す一方で、全ての学生モデルは本質的な有効ランクから16の深刻な次元的崩壊を経験する。
頑健性を求めることによって、この81%の効果的次元の減少が教師固有のノイズ免疫(σ=0.1ガウス雑音の下で89.35%の精度を保持する)をなくすことが判明した。
さらにInfoNCEを用いた情報理論解析では、このボトルネックの中で重要なトレードオフが示される: 過剰な学生容量は、壊れた部分空間をクリーンなデータに密に詰め込むが、厳しい脆さ(σ=0.1で43.76%)を引き起こす。
逆に、極端な容量制限(0.5Mパラメータ)は堅牢な低域通過フィルタとして機能し、高いノイズ免疫(54.84%)を維持する。
明示的な入力増大は、より大きなモデルの堅牢性を取り戻すのに失敗し、この脆弱性を証明することは、非対称コサイン蒸留の基本的な幾何学的制限である。
関連論文リスト
- Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - Potential-energy gating for robust state estimation in bistable stochastic systems [0.0]
ダブルウェル・ダイナミクスによって制御されるシステムにおけるロバストな状態推定法である電位エネルギーゲーティングを導入する。
拡張フィルタ,アンセントフィルタ,アンサンブルフィルタ,適応カルマンフィルタ内にゲーティングを実装した。
論文 参考訳(メタデータ) (2026-02-12T08:43:34Z) - Secure and Explainable Fraud Detection in Finance via Hierarchical Multi-source Dataset Distillation [17.90471000973834]
訓練されたランダム森林は、透明で軸方向の規則領域に変換される。
合成トランザクションは、各領域内で一様にサンプリングすることによって生成される。
これにより、コンパクトで監査可能なサロゲートデータセットが生成される。
論文 参考訳(メタデータ) (2025-12-26T05:00:35Z) - The Physics Constraint Paradox: When Removing Explicit Constraints Improves Physics-Informed Data for Machine Learning [0.0]
5つの幾何学パラメータを100点のスペクトル応答にマッピングする物理インフォームドグレーティングカプラスペクトル生成器を提案する。
エネルギー保護法,ファブリ・ペロ振動,帯域変動,雑音を選択的に除去することにより,物理制約パラドックスを明らかにする。
これらの知見は、物理インフォームドデータセット設計のための実用的なガイダンスを提供し、制約関連性を評価するための診断ツールとして機械学習の性能を強調している。
論文 参考訳(メタデータ) (2025-12-24T14:34:52Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。