論文の概要: Cross-Architecture Distillation Made Simple with Redundancy Suppression
- arxiv url: http://arxiv.org/abs/2507.21844v1
- Date: Tue, 29 Jul 2025 14:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.463248
- Title: Cross-Architecture Distillation Made Simple with Redundancy Suppression
- Title(参考訳): 冗長抑制を併用したクロスアーキテクチャ蒸留
- Authors: Weijia Zhang, Yuehao Liu, Wu Ran, Chao Ma,
- Abstract要約: 本稿では,知識伝達を冗長な情報抑制式にキャストするクロスアーキテクチャ知識蒸留法について述べる。
冗長なアーキテクチャ排他情報を削減することにより,異種表現におけるアーキテクチャ非依存の知識を抽出することを提案する。
提案手法は,OFAの先駆的手法におけるアーキテクチャ固有の設計や複雑な操作を欠いている。
- 参考スコア(独自算出の注目度): 8.844066299737845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a simple method for cross-architecture knowledge distillation, where the knowledge transfer is cast into a redundant information suppression formulation. Existing methods introduce sophisticated modules, architecture-tailored designs, and excessive parameters, which impair their efficiency and applicability. We propose to extract the architecture-agnostic knowledge in heterogeneous representations by reducing the redundant architecture-exclusive information. To this end, we present a simple redundancy suppression distillation (RSD) loss, which comprises cross-architecture invariance maximisation and feature decorrelation objectives. To prevent the student from entirely losing its architecture-specific capabilities, we further design a lightweight module that decouples the RSD objective from the student's internal representations. Our method is devoid of the architecture-specific designs and complex operations in the pioneering method of OFA. It outperforms OFA on CIFAR-100 and ImageNet-1k benchmarks with only a fraction of their parameter overhead, which highlights its potential as a simple and strong baseline to the cross-architecture distillation community.
- Abstract(参考訳): 本稿では,知識伝達を冗長な情報抑制式にキャストするクロスアーキテクチャ知識蒸留法について述べる。
既存の手法では、洗練されたモジュール、アーキテクチャに適した設計、過剰なパラメータを導入し、効率と適用性を損なう。
冗長なアーキテクチャ排他情報を削減することにより,異種表現におけるアーキテクチャ非依存の知識を抽出することを提案する。
この目的のために,クロスアーキテクチャ不変度最大化と特徴デコリレーション目的を含む簡易冗長性抑制蒸留(RSD)損失を提案する。
学生がアーキテクチャ固有の能力を完全に失うのを防ぐために、学生の内部表現からRSDの目的を分離する軽量モジュールをさらに設計する。
提案手法は,OFAの先駆的手法におけるアーキテクチャ固有の設計や複雑な操作を欠いている。
CIFAR-100とImageNet-1kベンチマークでは、パラメータオーバーヘッドのごく一部でOFAを上回り、クロスアーキテクチャ蒸留コミュニティへのシンプルで強力なベースラインとしての可能性を強調している。
関連論文リスト
- Empirical Evaluation of Knowledge Distillation from Transformers to Subquadratic Language Models [3.287942619833188]
本研究では,トランスフォーマーの教師モデルから8つのサブクワッドラティックな学生アーキテクチャへの知識蒸留の伝達可能性について,体系的に評価する。
本研究では,教師モデルの知識蒸留による学習表現を最も効果的に近似できるサブクワッドラティックモデルについて検討した。
論文 参考訳(メタデータ) (2025-04-19T17:49:52Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Relation Extraction with Instance-Adapted Predicate Descriptions [9.021267901894912]
関係抽出は、知識発見や質問応答といった下流の応用において重要な役割を果たしている。
本稿では, コントラストとクロスエントロピーの損失を伴う新しいデュアルエンコーダアーキテクチャを用いて, このような小型モデルを微調整する。
提案手法は, 単純だがエレガントな定式化を施した最先端手法に対して, 1%から2%のスコア改善を実現した。
論文 参考訳(メタデータ) (2025-03-22T15:36:41Z) - A Lightweight Deep Exclusion Unfolding Network for Single Image Reflection Removal [68.0573194557999]
シングルイメージリフレクション除去(SIRR)は、標準的なブラインドソース分離問題である。
本稿ではSIRRのための新しいDeep Exclusion Unfolding Network(DExNet)を提案する。
DExNetは、単純な反復スパースと補助的特徴更新(i-SAFU)アルゴリズムの展開とパラメータ化によって構築される。
論文 参考訳(メタデータ) (2025-03-03T07:54:27Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Heterogeneous Continual Learning [88.53038822561197]
本稿では,ネットワークアーキテクチャの変更に伴う継続学習(CL)問題に対処する新しい枠組みを提案する。
本研究は, 蒸留ファミリ上に構築し, より弱いモデルが教師の役割を担うような, 新たな環境に適応するものである。
また、知識伝達を支援するために、タスク前の視覚的特徴を復元するクイック・ディープ・インバージョン(QDI)を提案する。
論文 参考訳(メタデータ) (2023-06-14T15:54:42Z) - $\alpha$ DARTS Once More: Enhancing Differentiable Architecture Search
by Masked Image Modeling [25.75814720792934]
微分可能なアーキテクチャサーチ(DARTS)は自動機械学習における主流の方向である。
パッチ回復アプローチを定式化し,意味情報を付加的に注入することを提案する。
CIFAR-10, CIFAR-100, ImageNet では, 従来の DARTS の変種を超越し, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-11-18T09:07:19Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。