論文の概要: Intra-class Patch Swap for Self-Distillation
- arxiv url: http://arxiv.org/abs/2505.14124v1
- Date: Tue, 20 May 2025 09:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.970231
- Title: Intra-class Patch Swap for Self-Distillation
- Title(参考訳): 自己蒸留のためのクラス内パッチスワップ
- Authors: Hongjun Choi, Eun Som Jeon, Ankita Shukla, Pavan Turaga,
- Abstract要約: 単一学生ネットワークに基づく無教師蒸留フレームワークを提案する。
我々のアプローチは、クラス内パッチスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワ
提案手法は,既存の自己蒸留ベースラインと従来の教師ベースのKDアプローチを一貫して上回る。
- 参考スコア(独自算出の注目度): 3.282914142012984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a valuable technique for compressing large deep learning models into smaller, edge-suitable networks. However, conventional KD frameworks rely on pre-trained high-capacity teacher networks, which introduce significant challenges such as increased memory/storage requirements, additional training costs, and ambiguity in selecting an appropriate teacher for a given student model. Although a teacher-free distillation (self-distillation) has emerged as a promising alternative, many existing approaches still rely on architectural modifications or complex training procedures, which limit their generality and efficiency. To address these limitations, we propose a novel framework based on teacher-free distillation that operates using a single student network without any auxiliary components, architectural modifications, or additional learnable parameters. Our approach is built on a simple yet highly effective augmentation, called intra-class patch swap augmentation. This augmentation simulates a teacher-student dynamic within a single model by generating pairs of intra-class samples with varying confidence levels, and then applying instance-to-instance distillation to align their predictive distributions. Our method is conceptually simple, model-agnostic, and easy to implement, requiring only a single augmentation function. Extensive experiments across image classification, semantic segmentation, and object detection show that our method consistently outperforms both existing self-distillation baselines and conventional teacher-based KD approaches. These results suggest that the success of self-distillation could hinge on the design of the augmentation itself. Our codes are available at https://github.com/hchoi71/Intra-class-Patch-Swap.
- Abstract(参考訳): 知識蒸留(KD)は、大規模深層学習モデルをより小さく、エッジに適したネットワークに圧縮する貴重な技術である。
しかし、従来のKDフレームワークは事前訓練された高容量教師ネットワークに依存しており、メモリ/ストレージ要件の増加、追加のトレーニングコスト、学生モデルに適した教師を選択する際のあいまいさといった重要な課題を提起している。
教師のいない蒸留(自己蒸留)が有望な代替手段として登場したが、既存の多くのアプローチは、その汎用性と効率を制限したアーキテクチャの変更や複雑な訓練手順に依存している。
これらの制約に対処するために,教師なし蒸留に基づく新しい枠組みを提案する。
我々のアプローチは、クラス内パッチスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワップスワ
この拡張は、信頼度の異なるクラス内サンプルのペアを生成し、インスタンス・ツー・インスタンスの蒸留を適用して予測分布を整列させることにより、単一モデル内の教師-学生のダイナミクスをシミュレートする。
提案手法は概念的にシンプルで,モデルに依存しない,実装が容易で,ひとつの拡張関数のみを必要とする。
画像分類,セマンティックセグメンテーション,オブジェクト検出における広範囲な実験により,既存の自己蒸留ベースラインと従来の教師ベースのKDアプローチを一貫して上回る結果が得られた。
これらの結果から, 自己蒸留の成功は, 増量自体の設計に悪影響を及ぼす可能性が示唆された。
私たちのコードはhttps://github.com/hchoi71/Intra-class-Patch-Swap.comで利用可能です。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Preserving Angles Improves Feature Distillation of Foundation Models [8.572967695281054]
圧縮空間ネットワークと学生画像モデルとの類似性を保存する。
様々なCossNetデータセットが、検出ベンチマークでより堅牢な精度で精度良く生成されることが示されている。
これにより、一般的な検出ベンチマークでのトレーニングの競合パスが提供される。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Self-Distillation from the Last Mini-Batch for Consistency
Regularization [14.388479145440636]
我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-30T09:50:24Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。