論文の概要: Improving Differentiable Architecture Search via Self-Distillation
- arxiv url: http://arxiv.org/abs/2302.05629v2
- Date: Fri, 1 Sep 2023 07:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 17:10:34.847803
- Title: Improving Differentiable Architecture Search via Self-Distillation
- Title(参考訳): 自己蒸留による微分可能なアーキテクチャ探索の改善
- Authors: Xunyu Zhu, Jian Li, Yong Liu, Weiping Wang
- Abstract要約: 微分可能アーキテクチャサーチ(DARTS)は、単純だが効率的なニューラルアーキテクチャサーチ(NAS)手法である。
本稿では,自己拡散微分可能なニューラルアーキテクチャ探索(SD-DARTS)を提案する。
- 参考スコア(独自算出の注目度): 20.596850268316565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable Architecture Search (DARTS) is a simple yet efficient Neural
Architecture Search (NAS) method. During the search stage, DARTS trains a
supernet by jointly optimizing architecture parameters and network parameters.
During the evaluation stage, DARTS discretizes the supernet to derive the
optimal architecture based on architecture parameters. However, recent research
has shown that during the training process, the supernet tends to converge
towards sharp minima rather than flat minima. This is evidenced by the higher
sharpness of the loss landscape of the supernet, which ultimately leads to a
performance gap between the supernet and the optimal architecture. In this
paper, we propose Self-Distillation Differentiable Neural Architecture Search
(SD-DARTS) to alleviate the discretization gap. We utilize self-distillation to
distill knowledge from previous steps of the supernet to guide its training in
the current step, effectively reducing the sharpness of the supernet's loss and
bridging the performance gap between the supernet and the optimal architecture.
Furthermore, we introduce the concept of voting teachers, where multiple
previous supernets are selected as teachers, and their output probabilities are
aggregated through voting to obtain the final teacher prediction. Experimental
results on real datasets demonstrate the advantages of our novel
self-distillation-based NAS method compared to state-of-the-art alternatives.
- Abstract(参考訳): 微分可能アーキテクチャサーチ(DARTS)は、単純だが効率的なニューラルアーキテクチャサーチ(NAS)手法である。
探索段階では、DARTSはアーキテクチャパラメータとネットワークパラメータを協調的に最適化することでスーパーネットを訓練する。
評価段階では、DARTSはアーキテクチャパラメータに基づいて最適なアーキテクチャを導出するためにスーパーネットを識別する。
しかし、最近の研究では、トレーニング中にスーパーネットは平らなミニマではなく鋭いミニマに向かって収束する傾向があることが示されている。
これは、スーパーネットのロスランドスケープの鋭さによって証明され、最終的にスーパーネットと最適アーキテクチャの間にパフォーマンスのギャップが生じる。
本稿では,自己拡散微分型ニューラルネットワーク探索(SD-DARTS)を提案する。
自己蒸留をスーパーネットの前段階からの知識の蒸留に利用し,現在の段階におけるトレーニングの指導を行い,スーパーネットの損失の鋭さを効果的に低減し,スーパーネットと最適なアーキテクチャ間の性能ギャップを橋渡しする。
さらに,複数の過去のスーパーネットを教師として選択し,その出力確率を投票によって集計し,最終的な教師予測を得る投票教師の概念を導入する。
実データを用いた実験結果から,新しい自己蒸留式NAS法の利点が得られた。
関連論文リスト
- OStr-DARTS: Differentiable Neural Architecture Search based on Operation Strength [70.76342136866413]
分散アーキテクチャサーチ(DARTS)は、効果的なニューラルネットワークサーチの有望な技術として登場した。
DARTSは、アーキテクチャの劣化につながる、よく知られた退化問題に悩まされている。
最終損失に対する操作の重要性を推定する操作強度に基づく新しい基準を提案する。
論文 参考訳(メタデータ) (2024-09-22T13:16:07Z) - The devil is in discretization discrepancy. Robustifying Differentiable NAS with Single-Stage Searching Protocol [2.4300749758571905]
勾配に基づく手法は離散化誤差に悩まされ、最終的なアーキテクチャを得る過程を著しく損なう可能性がある。
本稿では,連続的なアーキテクチャの復号化に依存しない新しい単一ステージ探索プロトコルを提案する。
本手法は,Cityscapes検証データセットの検索段階において75.3%の精度で他のDNAS法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T15:44:53Z) - Boosting Order-Preserving and Transferability for Neural Architecture Search: a Joint Architecture Refined Search and Fine-tuning Approach [57.175488207316654]
本稿では,アーキテクチャ探索とスーパーネットファインチューニングを組み合わせた検索手法であるSupernet Shiftingを提案する。
我々は、Supernet Shiftingが新しいデータセットにスーパーネットを転送できることを示す。
総合的な実験により,本手法の順序保存能力は向上し,支配的アーキテクチャを見出すことができた。
論文 参考訳(メタデータ) (2024-03-18T00:13:41Z) - CLOSE: Curriculum Learning On the Sharing Extent Towards Better One-shot
NAS [19.485514022334844]
ワンショットニューラルアーキテクチャサーチ(NAS)は、その効率性からアーキテクチャを発見するために広く利用されている。
以前の研究では、アーキテクチャのワンショットのパフォーマンス推定が、スタンドアローンのトレーニングにおけるパフォーマンスと十分に相関していないことが判明した。
本稿では,スーパーネットを効果的かつ効果的にトレーニングするために,CLOSE(Curriculum Learning On Sharing Extent)を提案する。
論文 参考訳(メタデータ) (2022-07-16T07:45:17Z) - Generalizing Few-Shot NAS with Gradient Matching [165.5690495295074]
One-Shotメソッドは、1つのスーパーネットをトレーニングし、ウェイトシェアリングを通じて検索空間内の全てのアーキテクチャのパフォーマンスを近似する。
Few-Shot NASは、One-Shotスーパーネットを複数のサブスーパーネットに分割することで、ウェイトシェアリングのレベルを下げる。
Few-Shotよりも優れており、派生したアーキテクチャの精度という点では、従来の同等の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-29T03:06:16Z) - D-DARTS: Distributed Differentiable Architecture Search [75.12821786565318]
微分可能なArchiTecture Search(DARTS)は、最も流行しているニューラルネットワークサーチ(NAS)の1つである。
セルレベルで複数のニューラルネットワークをネストすることでこの問題に対処する新しいソリューションD-DARTSを提案する。
論文 参考訳(メタデータ) (2021-08-20T09:07:01Z) - Rethinking Architecture Selection in Differentiable NAS [74.61723678821049]
微分可能なニューラルアーキテクチャ探索は、その探索効率と簡易性において最も人気のあるNAS手法の1つである。
本稿では,各操作がスーパーネットに与える影響を直接測定する摂動に基づくアーキテクチャ選択を提案する。
提案手法により,DARTSの故障モードを大幅に緩和できることがわかった。
論文 参考訳(メタデータ) (2021-08-10T00:53:39Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。