論文の概要: Towards Mitigating Architecture Overfitting on Distilled Datasets
- arxiv url: http://arxiv.org/abs/2309.04195v2
- Date: Tue, 07 Jan 2025 08:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:48:13.147275
- Title: Towards Mitigating Architecture Overfitting on Distilled Datasets
- Title(参考訳): 蒸留データセットによるアーキテクチャオーバーフィッティングの軽減に向けて
- Authors: Xuyang Zhong, Chen Liu,
- Abstract要約: 本稿では,テキストアーキテクチャオーバーフィッティングの問題を緩和するための一連のアプローチを紹介する。
具体的には、DropPathは、大きなモデルをそのサブネットワークの暗黙のアンサンブルとして表現し、知識蒸留により、各サブネットワークが、小さいが、優れた教師ネットワークと同様に振る舞うことが保証される。
テストネットワークがトレーニングネットワークよりも大きい場合、我々のアプローチは同等あるいはそれ以上のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 2.3371504588528635
- License:
- Abstract: Dataset distillation methods have demonstrated remarkable performance for neural networks trained with very limited training data. However, a significant challenge arises in the form of \textit{architecture overfitting}: the distilled training dataset synthesized by a specific network architecture (i.e., training network) generates poor performance when trained by other network architectures (i.e., test networks), especially when the test networks have a larger capacity than the training network. This paper introduces a series of approaches to mitigate this issue. Among them, DropPath renders the large model to be an implicit ensemble of its sub-networks, and knowledge distillation ensures each sub-network acts similarly to the small but well-performing teacher network. These methods, characterized by their smoothing effects, significantly mitigate architecture overfitting. We conduct extensive experiments to demonstrate the effectiveness and generality of our methods. Particularly, across various scenarios involving different tasks and different sizes of distilled data, our approaches significantly mitigate architecture overfitting. Furthermore, our approaches achieve comparable or even superior performance when the test network is larger than the training network.
- Abstract(参考訳): データセット蒸留法は、非常に限られたトレーニングデータでトレーニングされたニューラルネットワークに対して顕著な性能を示した。
特定のネットワークアーキテクチャ(例えば、トレーニングネットワーク)によって合成された蒸留されたトレーニングデータセットは、他のネットワークアーキテクチャ(例えば、テストネットワーク)によってトレーニングされた場合、特にテストネットワークがトレーニングネットワークよりもキャパシティが大きい場合、パフォーマンスが低下する。
本稿では,この問題を軽減するための一連のアプローチを紹介する。
その中でもDropPathは、大きなモデルをそのサブネットワークの暗黙のアンサンブルとして表現し、知識の蒸留により、各サブネットワークは、小さいが、優れた教師ネットワークと同様に振舞う。
これらの方法はスムーズな効果を特徴とし、アーキテクチャのオーバーフィッティングを著しく軽減する。
提案手法の有効性と汎用性を実証するための広範な実験を行った。
特に、さまざまなタスクや蒸留データのサイズの異なる様々なシナリオにおいて、我々のアプローチはアーキテクチャの過度な適合を著しく軽減します。
さらに、テストネットワークがトレーニングネットワークよりも大きい場合、我々のアプローチは同等またはそれ以上の性能を達成する。
関連論文リスト
- Uncertainty estimation via ensembles of deep learning models and dropout layers for seismic traces [27.619194576741673]
本研究では, 第一運動極性に基づく地震波形の分類を行うために, 畳み込みニューラルネットワーク(CNN)を開発した。
我々は不確実性を推定するためにネットワークのアンサンブルを構築した。
ネットワークのアンサンブルの不確実性推定能力は,ドロップアウト層を用いて向上することができる。
論文 参考訳(メタデータ) (2024-10-08T15:22:15Z) - Efficient and Accurate Hyperspectral Image Demosaicing with Neural Network Architectures [3.386560551295746]
本研究では,ハイパースペクトル画像復調におけるニューラルネットワークアーキテクチャの有効性について検討した。
様々なネットワークモデルと修正を導入し、それらを従来の手法や既存の参照ネットワークアプローチと比較する。
その結果、我々のネットワークは、例外的な性能を示す両方のデータセットにおいて、参照モデルよりも優れるか、一致していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T08:02:49Z) - PDFNet: Pointwise Dense Flow Network for Urban-Scene Segmentation [0.0]
我々はポイントワイド高密度フローネットワーク(PDFNet)という新しい軽量アーキテクチャを提案する。
PDFNetでは、ネットワークのすべての部分へのスムーズな勾配流を可能にするために、密集、残留、複数ショートカット接続を使用します。
提案手法は,小規模なクラスや少数のデータレギュレーションにおいて,ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-09-21T10:39:46Z) - Unsupervised Domain-adaptive Hash for Networks [81.49184987430333]
ドメイン適応型ハッシュ学習はコンピュータビジョンコミュニティでかなりの成功を収めた。
UDAHと呼ばれるネットワークのための教師なしドメイン適応型ハッシュ学習手法を開発した。
論文 参考訳(メタデータ) (2021-08-20T12:09:38Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Task-Adaptive Neural Network Retrieval with Meta-Contrastive Learning [34.27089256930098]
本稿では,与えられたタスクに対して最適な事前学習ネットワークを検索するニューラルネットワーク検索手法を提案する。
データセットとネットワークとの類似性を最大化するために、コントラスト損失を伴うクロスモーダルな潜在空間をメタラーニングすることによって、このフレームワークを訓練する。
提案手法の有効性を,既存のNASベースラインに対して10個の実世界のデータセット上で検証する。
論文 参考訳(メタデータ) (2021-03-02T06:30:51Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Neural networks adapting to datasets: learning network size and topology [77.34726150561087]
ニューラルネットワークは、勾配に基づくトレーニングの過程で、そのサイズとトポロジの両方を学習できるフレキシブルなセットアップを導入します。
結果として得られるネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。
論文 参考訳(メタデータ) (2020-06-22T12:46:44Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。