論文の概要: Data-Efficient Augmentation for Training Neural Networks
- arxiv url: http://arxiv.org/abs/2210.08363v3
- Date: Thu, 20 Jul 2023 05:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 18:45:43.128444
- Title: Data-Efficient Augmentation for Training Neural Networks
- Title(参考訳): ニューラルネットワーク学習のためのデータ効率向上
- Authors: Tian Yu Liu and Baharan Mirzasoleiman
- Abstract要約: 本稿では,データポイントのサブセットを選択するための厳密な手法を提案する。
SVHNのCIFAR10では6.3倍,SVHNでは2.2倍の高速化を実現し,様々なサブセットサイズでベースラインを最大10%向上させる。
- 参考スコア(独自算出の注目度): 15.870155099135538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is essential to achieve state-of-the-art performance in
many deep learning applications. However, the most effective augmentation
techniques become computationally prohibitive for even medium-sized datasets.
To address this, we propose a rigorous technique to select subsets of data
points that when augmented, closely capture the training dynamics of full data
augmentation. We first show that data augmentation, modeled as additive
perturbations, improves learning and generalization by relatively enlarging and
perturbing the smaller singular values of the network Jacobian, while
preserving its prominent directions. This prevents overfitting and enhances
learning the harder to learn information. Then, we propose a framework to
iteratively extract small subsets of training data that when augmented, closely
capture the alignment of the fully augmented Jacobian with labels/residuals. We
prove that stochastic gradient descent applied to the augmented subsets found
by our approach has similar training dynamics to that of fully augmented data.
Our experiments demonstrate that our method achieves 6.3x speedup on CIFAR10
and 2.2x speedup on SVHN, and outperforms the baselines by up to 10% across
various subset sizes. Similarly, on TinyImageNet and ImageNet, our method beats
the baselines by up to 8%, while achieving up to 3.3x speedup across various
subset sizes. Finally, training on and augmenting 50% subsets using our method
on a version of CIFAR10 corrupted with label noise even outperforms using the
full dataset. Our code is available at:
https://github.com/tianyu139/data-efficient-augmentation
- Abstract(参考訳): データ拡張は、多くのディープラーニングアプリケーションで最先端のパフォーマンスを達成するために不可欠である。
しかし、最も効果的な拡張技術は、中規模のデータセットでも計算的に禁止される。
そこで本研究では,拡張されたデータポイントのサブセットを選択するための厳密な手法を提案する。
まず,加法摂動としてモデル化されたデータ拡張は,ネットワークジャコビアンのより小さな特異値を相対的に拡大・摂動することで学習と一般化を改善し,その顕著な方向を維持していることを示す。
これにより、過剰フィッティングが防止され、情報を学ぶのが難しくなる。
そこで本研究では,学習データの小さな部分集合を反復的に抽出するフレームワークを提案する。
本手法により得られた拡張部分集合に対する確率勾配勾配は、完全に拡張されたデータと同様のトレーニングダイナミクスを持つことを示す。
実験により, CIFAR10では6.3倍, SVHNでは2.2倍の高速化を実現し, 各種サブセットサイズでベースラインを最大10%上回る性能を示した。
同様に、TinyImageNetとImageNetでは、ベースラインを最大8%上回り、様々なサブセットサイズで最大3.3倍のスピードアップを実現しています。
最後に、我々のCIFAR10のバージョンで、50%のサブセットのトレーニングと強化を行い、完全なデータセットを使用してラベルノイズがさらに優れていた。
私たちのコードは、https://github.com/tianyu139/data- efficient-augmentationで利用可能です。
関連論文リスト
- Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation [19.780410411548935]
本稿ではDDAug(Dynamic Data Augmentation)を提案する。
DDAug計算は、様々な拡張を表現する階層木構造を開発する。
我々の手法は、現在の最先端データ拡張戦略より優れています。
論文 参考訳(メタデータ) (2023-05-25T06:44:43Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Dynamic Data Augmentation with Gating Networks [5.251019642214251]
本稿では,互いに有利なゲーティングネットワークと特徴整合損失を用いて,最適な組み合わせを動的に選択するニューラルネットワークを提案する。
実験では,2018 UCR Time Series Archiveの12大時系列データセットに対して提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-11-05T04:24:51Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Reducing Labelled Data Requirement for Pneumonia Segmentation using
Image Augmentations [0.0]
画像拡張が肺炎検出のための胸部x線意味セグメンテーションにおけるラベル付きデータの必要性を減らす効果について検討した。
我々は、トレーニングデータから異なるサイズのサブセットで完全な畳み込みネットワークモデルを訓練する。
回転と混合は、回転、混合、翻訳、ガンマ、水平フリップの中で最高の増強であり、ラベル付きデータの要件を70%削減します。
論文 参考訳(メタデータ) (2021-02-25T10:11:30Z) - Regularizing Deep Networks with Semantic Data Augmentation [44.53483945155832]
従来の手法を補完する新しい意味データ拡張アルゴリズムを提案する。
提案手法はディープネットワークが線形化特徴の学習に有効であるという興味深い性質に着想を得たものである。
提案した暗黙的セマンティックデータ拡張(ISDA)アルゴリズムは,新たなロバストCE損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-07-21T00:32:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。