論文の概要: Beyond Student: An Asymmetric Network for Neural Network Inheritance
- arxiv url: http://arxiv.org/abs/2602.09509v2
- Date: Wed, 11 Feb 2026 01:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.139076
- Title: Beyond Student: An Asymmetric Network for Neural Network Inheritance
- Title(参考訳): Beyond Students: ニューラルネットワーク継承のための非対称ネットワーク
- Authors: Yiyun Zhou, Jingwei Shi, Mingjing Xu, Zhonghua Jiang, Jingyuan Chen,
- Abstract要約: InherNetは、教師の体重に対して非対称な低ランク分解を行うニューラルネットワーク継承手法である。
InherNetは、同一のパラメータサイズを持つ学生ネットワークと比較して高い性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 18.289627626976753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) has emerged as a powerful technique for model compression, enabling lightweight student networks to benefit from the performance of redundant teacher networks. However, the inherent capacity gap often limits the performance of student networks. Inspired by the expressiveness of pretrained teacher networks, a compelling research question arises: is there a type of network that can not only inherit the teacher's structure but also maximize the inheritance of its knowledge? Furthermore, how does the performance of such an inheriting network compare to that of student networks, all benefiting from the same teacher network? To further explore this question, we propose InherNet, a neural network inheritance method that performs asymmetric low-rank decomposition on the teacher's weights and reconstructs a lightweight yet expressive network without significant architectural disruption. By leveraging Singular Value Decomposition (SVD) for initialization to ensure the inheritance of principal knowledge, InherNet effectively balances depth, width, and compression efficiency. Experimental results across unimodal and multimodal tasks demonstrate that InherNet achieves higher performance compared to student networks of similar parameter sizes. Our findings reveal a promising direction for future research in efficient model compression beyond traditional distillation.
- Abstract(参考訳): 知識蒸留(KD)はモデル圧縮の強力な技術として登場し、冗長な教師ネットワークの性能の恩恵を受けることができる。
しかし、固有の容量ギャップは、しばしば学生ネットワークの性能を制限している。
教師の構造を継承するだけでなく、その知識の継承を最大化できるネットワークが存在するのだろうか?
さらに、そのような継承ネットワークの性能は、同じ教師ネットワークの恩恵を受けながら、学生ネットワークのパフォーマンスとどのように比較されるのか?
そこで本研究では,教師の重みに対する非対称な低ランク分解を行うニューラルネットワーク継承手法であるInherNetを提案する。
主知識の継承を保証するために初期化に特異値分解(SVD)を活用することにより、InherNetは、深さ、幅、圧縮効率を効果的にバランスさせる。
InherNetは、同一のパラメータサイズを持つ学生ネットワークと比較して高い性能を発揮することを示す。
本研究は, 従来の蒸留法を超越した, 効率的なモデル圧縮に関する今後の研究の方向性を明らかにするものである。
関連論文リスト
- Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Teacher Encoder-Student Decoder Denoising Guided Segmentation Network for Anomaly Detection [15.545036112870841]
PFADSeg という,事前学習した教師ネットワークと,マルチスケールの機能融合による学生ネットワークと,ガイド付き異常セグメンテーションネットワークを統合フレームワークに統合した新しいモデルを提案する。
PFADSegはMVTec ADデータセットに基づいて、画像レベルのAUCは98.9%、ピクセルレベルの平均精度は76.4%、インスタンスレベルの平均精度は78.7%である。
論文 参考訳(メタデータ) (2025-01-21T12:55:04Z) - Adaptive Teaching with Shared Classifier for Knowledge Distillation [6.03477652126575]
知識蒸留(KD)は、教師ネットワークから学生ネットワークへ知識を伝達する技術である。
共有分類器(ATSC)を用いた適応型授業を提案する。
提案手法は,CIFAR-100とImageNetのデータセットに対して,単教師と多教師の両方のシナリオで最新の結果が得られる。
論文 参考訳(メタデータ) (2024-06-12T08:51:08Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks [44.31729147722701]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。