論文の概要: Towards Mitigating Architecture Overfitting on Distilled Datasets
- arxiv url: http://arxiv.org/abs/2309.04195v2
- Date: Tue, 07 Jan 2025 08:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 16:58:02.506015
- Title: Towards Mitigating Architecture Overfitting on Distilled Datasets
- Title(参考訳): 蒸留データセットによるアーキテクチャオーバーフィッティングの軽減に向けて
- Authors: Xuyang Zhong, Chen Liu,
- Abstract要約: 本稿では,テキストアーキテクチャオーバーフィッティングの問題を緩和するための一連のアプローチを紹介する。
具体的には、DropPathは、大きなモデルをそのサブネットワークの暗黙のアンサンブルとして表現し、知識蒸留により、各サブネットワークが、小さいが、優れた教師ネットワークと同様に振る舞うことが保証される。
テストネットワークがトレーニングネットワークよりも大きい場合、我々のアプローチは同等あるいはそれ以上のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 2.3371504588528635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation methods have demonstrated remarkable performance for neural networks trained with very limited training data. However, a significant challenge arises in the form of \textit{architecture overfitting}: the distilled training dataset synthesized by a specific network architecture (i.e., training network) generates poor performance when trained by other network architectures (i.e., test networks), especially when the test networks have a larger capacity than the training network. This paper introduces a series of approaches to mitigate this issue. Among them, DropPath renders the large model to be an implicit ensemble of its sub-networks, and knowledge distillation ensures each sub-network acts similarly to the small but well-performing teacher network. These methods, characterized by their smoothing effects, significantly mitigate architecture overfitting. We conduct extensive experiments to demonstrate the effectiveness and generality of our methods. Particularly, across various scenarios involving different tasks and different sizes of distilled data, our approaches significantly mitigate architecture overfitting. Furthermore, our approaches achieve comparable or even superior performance when the test network is larger than the training network.
- Abstract(参考訳): データセット蒸留法は、非常に限られたトレーニングデータでトレーニングされたニューラルネットワークに対して顕著な性能を示した。
特定のネットワークアーキテクチャ(例えば、トレーニングネットワーク)によって合成された蒸留されたトレーニングデータセットは、他のネットワークアーキテクチャ(例えば、テストネットワーク)によってトレーニングされた場合、特にテストネットワークがトレーニングネットワークよりもキャパシティが大きい場合、パフォーマンスが低下する。
本稿では,この問題を軽減するための一連のアプローチを紹介する。
その中でもDropPathは、大きなモデルをそのサブネットワークの暗黙のアンサンブルとして表現し、知識の蒸留により、各サブネットワークは、小さいが、優れた教師ネットワークと同様に振舞う。
これらの方法はスムーズな効果を特徴とし、アーキテクチャのオーバーフィッティングを著しく軽減する。
提案手法の有効性と汎用性を実証するための広範な実験を行った。
特に、さまざまなタスクや蒸留データのサイズの異なる様々なシナリオにおいて、我々のアプローチはアーキテクチャの過度な適合を著しく軽減します。
さらに、テストネットワークがトレーニングネットワークよりも大きい場合、我々のアプローチは同等またはそれ以上の性能を達成する。
関連論文リスト
- Uncertainty estimation via ensembles of deep learning models and dropout layers for seismic traces [27.619194576741673]
本研究では, 第一運動極性に基づく地震波形の分類を行うために, 畳み込みニューラルネットワーク(CNN)を開発した。
我々は不確実性を推定するためにネットワークのアンサンブルを構築した。
ネットワークのアンサンブルの不確実性推定能力は,ドロップアウト層を用いて向上することができる。
論文 参考訳(メタデータ) (2024-10-08T15:22:15Z) - Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs [48.406728896785296]
本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。
従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。
論文 参考訳(メタデータ) (2024-07-15T08:42:10Z) - Efficient and Accurate Hyperspectral Image Demosaicing with Neural Network Architectures [3.386560551295746]
本研究では,ハイパースペクトル画像復調におけるニューラルネットワークアーキテクチャの有効性について検討した。
様々なネットワークモデルと修正を導入し、それらを従来の手法や既存の参照ネットワークアプローチと比較する。
その結果、我々のネットワークは、例外的な性能を示す両方のデータセットにおいて、参照モデルよりも優れるか、一致していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T08:02:49Z) - The Training Process of Many Deep Networks Explores the Same Low-Dimensional Manifold [21.431022906309334]
我々は,訓練中の深層ネットワーク予測の軌跡を解析するための情報幾何学的手法を開発した。
異なるアーキテクチャを持つネットワークは区別可能な軌跡に従うが、他の要因は最小限の影響を持つ。
より大きなネットワークは、より小さなネットワークと同様の多様体に沿って訓練し、予測空間の非常に異なる部分のネットワークは、同様の多様体に沿って解に収束する。
論文 参考訳(メタデータ) (2023-05-02T17:09:07Z) - FedHeN: Federated Learning in Heterogeneous Networks [52.29110497518558]
ヘテロジニアスネットワークを用いたフェデレーション学習のための新しい学習レシピを提案する。
我々は,高次複雑度デバイスを対象とするトレーニングを導入し,連携した環境で異なるアーキテクチャを共同で訓練する。
論文 参考訳(メタデータ) (2022-07-07T01:08:35Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - DHEN: A Deep and Hierarchical Ensemble Network for Large-Scale
Click-Through Rate Prediction [20.51885543358098]
ヘテロジニアス相互作用モジュールの強みを生かし、異なる順序で相互作用の階層構造を学習できる深層・階層型アンサンブルアーキテクチャDHENを提案する。
CTR予測タスクからの大規模データセットの実験では、予測の正規化エントロピーが0.27%向上し、最先端のベースラインよりも1.2倍優れたトレーニングスループットが得られた。
論文 参考訳(メタデータ) (2022-03-11T21:19:31Z) - Towards Federated Bayesian Network Structure Learning with Continuous
Optimization [14.779035801521717]
本稿では,ベイズネットワークの構造を推定するクロスサイロ・フェデレーション学習手法を提案する。
本研究では,連続最適化に基づく分散構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:36:05Z) - PDFNet: Pointwise Dense Flow Network for Urban-Scene Segmentation [0.0]
我々はポイントワイド高密度フローネットワーク(PDFNet)という新しい軽量アーキテクチャを提案する。
PDFNetでは、ネットワークのすべての部分へのスムーズな勾配流を可能にするために、密集、残留、複数ショートカット接続を使用します。
提案手法は,小規模なクラスや少数のデータレギュレーションにおいて,ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-09-21T10:39:46Z) - Unsupervised Domain-adaptive Hash for Networks [81.49184987430333]
ドメイン適応型ハッシュ学習はコンピュータビジョンコミュニティでかなりの成功を収めた。
UDAHと呼ばれるネットワークのための教師なしドメイン適応型ハッシュ学習手法を開発した。
論文 参考訳(メタデータ) (2021-08-20T12:09:38Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Task-Adaptive Neural Network Retrieval with Meta-Contrastive Learning [34.27089256930098]
本稿では,与えられたタスクに対して最適な事前学習ネットワークを検索するニューラルネットワーク検索手法を提案する。
データセットとネットワークとの類似性を最大化するために、コントラスト損失を伴うクロスモーダルな潜在空間をメタラーニングすることによって、このフレームワークを訓練する。
提案手法の有効性を,既存のNASベースラインに対して10個の実世界のデータセット上で検証する。
論文 参考訳(メタデータ) (2021-03-02T06:30:51Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Neural networks adapting to datasets: learning network size and topology [77.34726150561087]
ニューラルネットワークは、勾配に基づくトレーニングの過程で、そのサイズとトポロジの両方を学習できるフレキシブルなセットアップを導入します。
結果として得られるネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。
論文 参考訳(メタデータ) (2020-06-22T12:46:44Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。