論文の概要: Improving Differentiable Architecture Search via Self-Distillation
- arxiv url: http://arxiv.org/abs/2302.05629v1
- Date: Sat, 11 Feb 2023 08:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:30:12.611576
- Title: Improving Differentiable Architecture Search via Self-Distillation
- Title(参考訳): 自己蒸留による微分可能なアーキテクチャ探索の改善
- Authors: Xunyu Zhu, Jian Li, Yong Liu, Weiping Wang
- Abstract要約: 微分可能アーキテクチャサーチ(DARTS)は、単純だが効率的なニューラルアーキテクチャサーチ(NAS)手法である。
本稿では, 自己蒸留を利用して, 過去のステップでスーパーネットの知識を伝達することにより, 自己蒸留微分型ニューラルネットワーク探索(SD-DARTS)を提案する。
- 参考スコア(独自算出の注目度): 19.214462477848535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable Architecture Search (DARTS) is a simple yet efficient Neural
Architecture Search (NAS) method. During the search stage, DARTS trains a
supernet by jointly optimizing architecture parameters and network parameters.
During the evaluation stage, DARTS derives the optimal architecture based on
architecture parameters. However, the loss landscape of the supernet is not
smooth, and it results in a performance gap between the supernet and the
optimal architecture. In the paper, we propose Self-Distillation Differentiable
Neural Architecture Search (SD-DARTS) by utilizing self-distillation to
transfer knowledge of the supernet in previous steps to guide the training of
the supernet in the current steps. SD-DARTS can minimize the loss difference
for the two consecutive iterations so that minimize the sharpness of the
supernet's loss to bridge the performance gap between the supernet and the
optimal architecture. Furthermore, we propose voted teachers, which select
multiple previous supernets as teachers and vote teacher output probabilities
as the final teacher prediction. The knowledge of several teachers is more
abundant than a single teacher, thus, voted teachers can be more suitable to
lead the training of the supernet. Experimental results on real datasets
illustrate the advantages of our novel self-distillation-based NAS method
compared to state-of-the-art alternatives.
- Abstract(参考訳): 微分可能アーキテクチャサーチ(DARTS)は、単純だが効率的なニューラルアーキテクチャサーチ(NAS)手法である。
探索段階では、DARTSはアーキテクチャパラメータとネットワークパラメータを協調的に最適化することでスーパーネットを訓練する。
評価段階において、dartはアーキテクチャパラメータに基づいた最適なアーキテクチャを導出する。
しかし、スーパーネットのロスランドスケープはスムーズではないため、スーパーネットと最適アーキテクチャの間の性能ギャップが生じる。
本稿では,前段階におけるスーパーネットの知識伝達に自己蒸留を利用した自己蒸留微分可能なニューラルネットワーク探索(sd-darts)を提案し,現在の段階におけるスーパーネットの訓練を導く。
SD-DARTSは2回の繰り返しの損失差を最小限に抑え、スーパーネットの損失のシャープさを最小化し、スーパーネットと最適アーキテクチャの間の性能ギャップを埋める。
さらに,複数のスーパーネットを教師として選択し,教師のアウトプット確率を最終予測として投票した教師を提案する。
複数の教師の知識は1人の教師よりも豊富であり、投票された教師はスーパーネットの訓練を指導するのに適している。
実データを用いた実験結果から,新しい自己蒸留式NAS法の利点が得られた。
関連論文リスト
- OStr-DARTS: Differentiable Neural Architecture Search based on Operation Strength [70.76342136866413]
分散アーキテクチャサーチ(DARTS)は、効果的なニューラルネットワークサーチの有望な技術として登場した。
DARTSは、アーキテクチャの劣化につながる、よく知られた退化問題に悩まされている。
最終損失に対する操作の重要性を推定する操作強度に基づく新しい基準を提案する。
論文 参考訳(メタデータ) (2024-09-22T13:16:07Z) - The devil is in discretization discrepancy. Robustifying Differentiable NAS with Single-Stage Searching Protocol [2.4300749758571905]
勾配に基づく手法は離散化誤差に悩まされ、最終的なアーキテクチャを得る過程を著しく損なう可能性がある。
本稿では,連続的なアーキテクチャの復号化に依存しない新しい単一ステージ探索プロトコルを提案する。
本手法は,Cityscapes検証データセットの検索段階において75.3%の精度で他のDNAS法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T15:44:53Z) - Boosting Order-Preserving and Transferability for Neural Architecture Search: a Joint Architecture Refined Search and Fine-tuning Approach [57.175488207316654]
本稿では,アーキテクチャ探索とスーパーネットファインチューニングを組み合わせた検索手法であるSupernet Shiftingを提案する。
我々は、Supernet Shiftingが新しいデータセットにスーパーネットを転送できることを示す。
総合的な実験により,本手法の順序保存能力は向上し,支配的アーキテクチャを見出すことができた。
論文 参考訳(メタデータ) (2024-03-18T00:13:41Z) - CLOSE: Curriculum Learning On the Sharing Extent Towards Better One-shot
NAS [19.485514022334844]
ワンショットニューラルアーキテクチャサーチ(NAS)は、その効率性からアーキテクチャを発見するために広く利用されている。
以前の研究では、アーキテクチャのワンショットのパフォーマンス推定が、スタンドアローンのトレーニングにおけるパフォーマンスと十分に相関していないことが判明した。
本稿では,スーパーネットを効果的かつ効果的にトレーニングするために,CLOSE(Curriculum Learning On Sharing Extent)を提案する。
論文 参考訳(メタデータ) (2022-07-16T07:45:17Z) - Generalizing Few-Shot NAS with Gradient Matching [165.5690495295074]
One-Shotメソッドは、1つのスーパーネットをトレーニングし、ウェイトシェアリングを通じて検索空間内の全てのアーキテクチャのパフォーマンスを近似する。
Few-Shot NASは、One-Shotスーパーネットを複数のサブスーパーネットに分割することで、ウェイトシェアリングのレベルを下げる。
Few-Shotよりも優れており、派生したアーキテクチャの精度という点では、従来の同等の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-29T03:06:16Z) - D-DARTS: Distributed Differentiable Architecture Search [75.12821786565318]
微分可能なArchiTecture Search(DARTS)は、最も流行しているニューラルネットワークサーチ(NAS)の1つである。
セルレベルで複数のニューラルネットワークをネストすることでこの問題に対処する新しいソリューションD-DARTSを提案する。
論文 参考訳(メタデータ) (2021-08-20T09:07:01Z) - Rethinking Architecture Selection in Differentiable NAS [74.61723678821049]
微分可能なニューラルアーキテクチャ探索は、その探索効率と簡易性において最も人気のあるNAS手法の1つである。
本稿では,各操作がスーパーネットに与える影響を直接測定する摂動に基づくアーキテクチャ選択を提案する。
提案手法により,DARTSの故障モードを大幅に緩和できることがわかった。
論文 参考訳(メタデータ) (2021-08-10T00:53:39Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。