論文の概要: AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable
Probabilistic Implicit Differentiation
- arxiv url: http://arxiv.org/abs/2103.05863v2
- Date: Thu, 11 Mar 2021 22:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 11:48:13.157334
- Title: AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable
Probabilistic Implicit Differentiation
- Title(参考訳): AutoDO: スケーラブル確率的暗黙差分法によるラベルノイズ付きバイアスデータに対するロバスト自動拡張
- Authors: Denis Gudovskiy, Luca Rigazio, Shun Ishizaka, Kazuki Kozuka, Sotaro
Tsukizawa
- Abstract要約: AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。
バイアスデータやノイズデータに適用した場合,これらの手法は堅牢ではないことを示す。
AutoAugmentを汎用的な自動データセット最適化(AutoDO)タスクとして再構成します。
従来の手法と比較して,ラベルノイズのあるバイアス付きデータセットは最大9.3%改善した。
- 参考スコア(独自算出の注目度): 3.118384520557952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AutoAugment has sparked an interest in automated augmentation methods for
deep learning models. These methods estimate image transformation policies for
train data that improve generalization to test data. While recent papers
evolved in the direction of decreasing policy search complexity, we show that
those methods are not robust when applied to biased and noisy data. To overcome
these limitations, we reformulate AutoAugment as a generalized automated
dataset optimization (AutoDO) task that minimizes the distribution shift
between test data and distorted train dataset. In our AutoDO model, we
explicitly estimate a set of per-point hyperparameters to flexibly change
distribution of train data. In particular, we include hyperparameters for
augmentation, loss weights, and soft-labels that are jointly estimated using
implicit differentiation. We develop a theoretical probabilistic interpretation
of this framework using Fisher information and show that its complexity scales
linearly with the dataset size. Our experiments on SVHN, CIFAR-10/100, and
ImageNet classification show up to 9.3% improvement for biased datasets with
label noise compared to prior methods and, importantly, up to 36.6% gain for
underrepresented SVHN classes.
- Abstract(参考訳): AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。
これらの手法は、テストデータの一般化を改善する列車データに対する画像変換ポリシーを推定する。
政策探索の複雑さを減少させる方向に進化した最近の論文では、偏りやノイズのあるデータに適用した場合、これらの手法が堅牢でないことが示されている。
これらの制限を克服するために、テストデータと歪んだ列車データセット間の分布シフトを最小限に抑える、汎用自動データセット最適化(AutoDO)タスクとしてAutoAugmentを再構成します。
autodoモデルでは,ポイント毎のハイパーパラメータの集合を明示的に推定し,列車データの分布を柔軟に変化させる。
特に、強調、損失重み、および暗黙の微分を用いて共同で推定されるソフトラベルのためのハイパーパラメータを含む。
本研究では,fisher情報を用いた理論的な確率論的解釈を行い,その複雑性がデータセットサイズと線形にスケールすることを示す。
SVHN, CIFAR-10/100, ImageNet分類に関する実験では,従来の方法と比較して,ラベルノイズの偏りのあるデータセットの9.3%の改善と,低表現のSVHNクラスに対する36.6%の利得を示した。
関連論文リスト
- SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。
本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。
本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-05T10:55:29Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Dimensionality Reduction using Elastic Measures [0.6445605125467572]
本稿では t-distributed Neighbor Embedding (t-SNE) と Uniform Approximation and Projection (UMAP) に弾性メトリクスを組み込む方法を提案する。
形状識別および分類タスクに関する3つのベンチマークデータセットの性能向上を示す。
論文 参考訳(メタデータ) (2022-09-07T21:09:38Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - AutoDC: Automated data-centric processing [0.2936007114555107]
データセット改善プロセスの高速化を目的として,自動データ中心ツール(AutoDC)を開発した。
AutoDCは、データ改善タスクの約80%のマニュアル時間を削減すると同時に、固定されたMLコードでモデルの精度を10~15%向上させると見積もられている。
論文 参考訳(メタデータ) (2021-11-23T00:48:49Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。