論文の概要: Breaking the Geometric Bottleneck: Contrastive Expansion in Asymmetric Cross-Modal Distillation
- arxiv url: http://arxiv.org/abs/2603.06698v2
- Date: Tue, 10 Mar 2026 07:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:12.943458
- Title: Breaking the Geometric Bottleneck: Contrastive Expansion in Asymmetric Cross-Modal Distillation
- Title(参考訳): 幾何学的ボツネックを破る:非対称クロスモーダル蒸留におけるコントラスト膨張
- Authors: Kabir Thayani,
- Abstract要約: グローバルビジョン変換器をキャパシティ制約CNNに蒸留する際の次元崩壊現象について検討する。
厳密な集中型SVDとエフェクトランクを用いることで、CIFAR-10上でキャパシティ非依存の位相遷移を示す。
さらに、DINOv2の均一な幾何は部分的に崩壊を防ぐが、コントラスト展開はCNNのトポロジカルキャパシティ限界に達する普遍的な要件であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation between asymmetric architectures often induces severe geometric constraints on the learned representation space. In this work, we investigate the Dimensional Collapse phenomenon when distilling global Vision Transformers (CLIP and DINOv2) into capacity-constrained CNNs. By employing strictly centered SVD and Effective Rank, we first demonstrate a capacity-agnostic phase transition on CIFAR-10 where standard cosine distillation collapses representations to an intrinsic Effective Rank of ~16. To reverse this, we integrate an auxiliary contrastive objective (InfoNCE), expanding the student's manifold by 2.4x (to ~38 effective dimensions). We further demonstrate that while DINOv2's uniform geometry partially prevents collapse, contrastive expansion remains a universal requirement to reach the CNN's topological capacity limit (~82 dimensions). Finally, we reveal a critical capacity-density trade-off: overparameterization within fixed manifolds induces brittleness, while capacity-constrained models act as optimal low-pass semantic filters, successfully recovering inherent noise immunity.
- Abstract(参考訳): 非対称アーキテクチャ間の知識蒸留は、しばしば学習された表現空間に厳しい幾何学的制約をもたらす。
本研究では,グローバルビジョン変換器 (CLIP, DINOv2) を容量拘束型CNNに蒸留した場合の次元崩壊現象について検討する。
厳密な集中型SVDと有効ランクを用いることで、標準コサイン蒸留が本質的な有効ランクから16の表現を崩壊させるCIFAR-10上で、キャパシティ非依存の相転移を初めて示す。
これを回避するために、補助的コントラスト目的(InfoNCE)を統合し、学生の多様体を2.4倍に拡張する(有効次元はおよそ38)。
さらに、DINOv2の均一な幾何は部分的に崩壊を防ぐが、コントラスト展開はCNNの位相的容量限界(約82次元)に到達する普遍的な要件であることを示す。
固定多様体内の過度パラメータ化は脆性を引き起こすが、キャパシティ制約付きモデルは最適な低パスセマンティックフィルタとして機能し、固有ノイズ免疫の回復に成功している。
関連論文リスト
- Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - Potential-energy gating for robust state estimation in bistable stochastic systems [0.0]
ダブルウェル・ダイナミクスによって制御されるシステムにおけるロバストな状態推定法である電位エネルギーゲーティングを導入する。
拡張フィルタ,アンセントフィルタ,アンサンブルフィルタ,適応カルマンフィルタ内にゲーティングを実装した。
論文 参考訳(メタデータ) (2026-02-12T08:43:34Z) - Secure and Explainable Fraud Detection in Finance via Hierarchical Multi-source Dataset Distillation [17.90471000973834]
訓練されたランダム森林は、透明で軸方向の規則領域に変換される。
合成トランザクションは、各領域内で一様にサンプリングすることによって生成される。
これにより、コンパクトで監査可能なサロゲートデータセットが生成される。
論文 参考訳(メタデータ) (2025-12-26T05:00:35Z) - The Physics Constraint Paradox: When Removing Explicit Constraints Improves Physics-Informed Data for Machine Learning [0.0]
5つの幾何学パラメータを100点のスペクトル応答にマッピングする物理インフォームドグレーティングカプラスペクトル生成器を提案する。
エネルギー保護法,ファブリ・ペロ振動,帯域変動,雑音を選択的に除去することにより,物理制約パラドックスを明らかにする。
これらの知見は、物理インフォームドデータセット設計のための実用的なガイダンスを提供し、制約関連性を評価するための診断ツールとして機械学習の性能を強調している。
論文 参考訳(メタデータ) (2025-12-24T14:34:52Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。