論文の概要: MEDiC: Multi-objective Exploration of Distillation from CLIP
- arxiv url: http://arxiv.org/abs/2603.29009v1
- Date: Mon, 30 Mar 2026 21:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.867136
- Title: MEDiC: Multi-objective Exploration of Distillation from CLIP
- Title(参考訳): MEDiC:CLIPからの多目的蒸留探索
- Authors: Konstantinos Georgiou, Maofeng Tang, Hairong Qi,
- Abstract要約: 本稿では,1つのパイプラインで生画素空間と潜在特徴空間を組み合わせたMEDiCを提案する。
我々は、この多目的フレームワークを取り巻く設計空間を体系的に調査する。
フレームワークは73.9%のkNNと85.1%の微調整精度を実現し,300 epochsでViT-Baseを開発した。
- 参考スコア(独自算出の注目度): 4.650294470355587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modeling (MIM) methods typically operate in either raw pixel space (reconstructing masked patches) or latent feature space (aligning with a pre-trained teacher). We present MEDiC (Multi-objective Exploration of Distillation from CLIP), a framework that combines both spaces in a single pipeline through three complementary objectives: patch-level token distillation from a frozen CLIP encoder, global CLS alignment, and pixel reconstruction via a lightweight decoder. We conduct a systematic investigation of the design space surrounding this multi-objective framework. First, we show that all three objectives provide complementary information, with the full combination reaching 73.9% kNN accuracy on ImageNet-1K. Second, we introduce hierarchical clustering with relative position bias for evolved masking and find that, despite producing more semantically coherent masks than prior methods, evolved masking does not outperform simple block masking in the teacher-guided distillation setting, a finding we attribute to the teacher's inherent semantic awareness. Third, we reveal that optimal scalar loss weights are extremely fragile, with small perturbations causing drops of up to 17 percentage points in kNN accuracy. Our framework achieves 73.9% kNN and 85.1% fine-tuning accuracy with ViT-Base at 300 epochs.
- Abstract(参考訳): マスク付き画像モデリング(MIM)法は、通常、生のピクセル空間(マスク付きパッチの再構成)または潜伏した特徴空間(事前訓練された教師と並行して)で機能する。
MEDiC(Multi-objective Exploration of Distillation from CLIP)は, 凍結したCLIPエンコーダからのパッチレベルのトークン蒸留, グローバルCLSアライメント, 軽量デコーダによる画素再構成の3つの相補的な目的を通じて, 単一パイプライン内の両方の空間を組み合わせたフレームワークである。
我々は、この多目的フレームワークを取り巻く設計空間を体系的に調査する。
まず、3つの目的が相補的な情報を提供し、完全な組み合わせがImageNet-1K上で73.9%の精度に達することを示す。
第2に,進化型マスキングの相対的位置バイアスによる階層的クラスタリングを導入し,従来の手法よりも意味的コヒーレントなマスクを創出するにもかかわらず,進化型マスキングは教師が指導した蒸留条件において単純なブロックマスキングよりも優れていないことを見出した。
第3に, 最適スカラー損失重みは極めて脆弱であり, 摂動が小さく, kNN精度が最大17ポイント低下することを明らかにする。
フレームワークは73.9%のkNNと85.1%の微調整精度を実現し,300 epochsでViT-Baseを開発した。
関連論文リスト
- From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding [31.516613298007005]
C2FMAEは粗いマスク付きオートエンコーダで、3つのデータ粒度にわたる階層的な視覚表現を明示的に学習する。
我々は,C2FMAEが画像分類,オブジェクト検出,セマンティックセグメンテーションにおいて顕著な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2026-03-10T17:51:12Z) - Masked Autoencoder Pretraining on Strong-Lensing Images for Joint Dark-Matter Model Classification and Super-Resolution [0.0]
DeepLense ML4SCIベンチマークによる高輝度画像のMasked Autoencoder(MAE)事前学習戦略
我々は、マスク画像モデリングの目的を用いてビジョントランスフォーマーエンコーダを事前訓練し、各タスクごとに個別に微調整する。
超高解像度(16x16から64x64)では、PSNR 33 dBとSSIM 0.961で画像を再構成し、スクラッチトレーニングよりもわずかに改善した。
論文 参考訳(メタデータ) (2025-12-07T03:25:19Z) - Asymmetric Dual Self-Distillation for 3D Self-Supervised Representation Learning [5.317624228510749]
本稿では,非対称な二重自己蒸留フレームワークであるAsymDSDを提案する。
AsymDSDはScanObjectNNの最先端結果(90.53%)を達成し、930kの形状で事前訓練された場合には93.72%に改善する。
論文 参考訳(メタデータ) (2025-06-26T19:17:10Z) - CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Mask Hierarchical Features For Self-Supervised Learning [23.140060988999352]
本稿では,Masking the Deep Hierarchical featuresは,MaskDeepとして表される効率的な自己教師手法であることを示す。
我々は、表現空間内のパッチの一部を隠蔽し、疎可視パッチを使用して、高い意味的イメージ表現を再構築する。
200エポックでResNet50でトレーニングされたMaskDeepは、ImageNet上で71.2%の精度で線形分類を行う。
論文 参考訳(メタデータ) (2023-04-01T04:14:57Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。