論文の概要: SPACE-iT: Spatial-Aware Curriculum Exploration and Feedback-Driven Adaptive Augmentation for Vision Transformer Distillation
- arxiv url: http://arxiv.org/abs/2506.10582v2
- Date: Tue, 09 Sep 2025 12:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.86679
- Title: SPACE-iT: Spatial-Aware Curriculum Exploration and Feedback-Driven Adaptive Augmentation for Vision Transformer Distillation
- Title(参考訳): SPACE-iT:視覚変換器蒸留のための空間認識型カリキュラム探索とフィードバック駆動適応拡張
- Authors: Jihyeon Seong, Hyunkyung Han,
- Abstract要約: SPACE-iTは、フィードバック駆動適応拡張による空間認識型カリキュラム探索のための新しいフレームワークである。
SPACE-iTはその中核で、注意、パッチ、ロジットレベルで空間的信頼度を計算する。
この信頼マップは,(1) 蒸留損失を動的に調節し,(2) 適応拡張モジュールを誘導する2つの戦略を支持する。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has proven to be a powerful technique for improving the performance of Vision Transformers (ViTs). However, traditional KD methods often treat all image patches uniformly, overlooking spatial variations in learning difficulty. To address this limitation, we propose SPACE-iT, a novel framework for Spatial-Aware Curriculum Exploration via Feedback-Driven Adaptive Augmentation. At its core, SPACE-iT computes spatial confidence scores at the attention, patch, and logit levels. This confidence map supports a two-fold strategy: (1) dynamically modulating the distillation loss, and (2) guiding an adaptive augmentation module that intensifies reverse curriculum learning. By establishing a feedback-driven reverse curriculum that initially exposes students to challenging regions-progressing from hard to easy-SPACE-iT enables more effective learning of complex spatial patterns and achieves superior performance over vanilla distillation, without introducing additional memory overhead.
- Abstract(参考訳): 知識蒸留(KD)は視覚変換器(ViT)の性能向上のための強力な技術であることが証明されている。
しかし、従来のKD法は、学習難易度における空間的変動を見越して、全ての画像パッチを均一に扱うことが多い。
本研究では,SPACE-iTを提案する。SPACE-iTは,フィードバック駆動適応拡張による空間認識型カリキュラム探索のための新しいフレームワークである。
SPACE-iTはその中核で、注意、パッチ、ロジットレベルで空間的信頼度を計算する。
この信頼マップは,(1)蒸留損失を動的に調節し,(2)逆カリキュラム学習を強化する適応拡張モジュールを導く,という2つの戦略をサポートする。
フィードバック駆動のリバースカリキュラムを確立することで、学生が困難から容易なSPACE-iTに挑戦する領域に露出することで、複雑な空間パターンをより効果的に学習し、メモリオーバーヘッドを増やすことなく、バニラ蒸留よりも優れた性能を実現することができる。
関連論文リスト
- MINR: Implicit Neural Representations with Masked Image Modelling [5.330266804358638]
Masked Autoencoders (MAE) は、ロバストな特徴表現の学習において大きな可能性を秘めている。
暗黙的ニューラル表現をマスク画像モデリングと相乗化するマスク付き暗黙的ニューラル表現(MINR)フレームワークを導入する。
MINRは画像を表す連続関数を学習し、マスキング戦略によらず、より堅牢で一般化可能な再構築を可能にする。
論文 参考訳(メタデータ) (2025-07-30T06:12:57Z) - Self-Guided Masked Autoencoder [16.96990728780005]
Masked Autoencoder (MAE) は表現学習のための自己教師型アプローチである。
パッチクラスタリングの進展を利用して内部的に情報マスクを生成する自己誘導マスク自動エンコーダを提案する。
論文 参考訳(メタデータ) (2025-07-26T03:48:12Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using Multi-Level Optimization [40.78236375917571]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
マルチレベル最適化マスクオートエンコーダ(MLO-MAE)は,下流タスクからのエンドツーエンドフィードバックを利用して,事前トレーニング中に最適なマスキング戦略を学習する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Improving self-supervised representation learning via sequential
adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。
敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-16T04:25:43Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。