論文の概要: A Data-Augmentation Is Worth A Thousand Samples: Exact Quantification
From Analytical Augmented Sample Moments
- arxiv url: http://arxiv.org/abs/2202.08325v1
- Date: Wed, 16 Feb 2022 20:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-19 06:23:50.322984
- Title: A Data-Augmentation Is Worth A Thousand Samples: Exact Quantification
From Analytical Augmented Sample Moments
- Title(参考訳): データ提供は数千のサンプルに値する - 分析的拡張サンプルモーメントによる正確な定量化
- Authors: Randall Balestriero, Ishan Misra, Yann LeCun
- Abstract要約: Data-Augmentation(DA)は、タスクやデータセットのパフォーマンスを改善することで知られています。
我々は,DAの効果を理論的に解析する手法を提案し,そのDAによって符号化された情報を正確に推定するために,何個の拡張サンプルが必要であるかという質問を考察する。
我々は、所定のDA分布の下で、画像の期待と分散、損失、モデルの出力など、いくつかのクローズドな形式を導出する。
- 参考スコア(独自算出の注目度): 34.42345798371014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-Augmentation (DA) is known to improve performance across tasks and
datasets. We propose a method to theoretically analyze the effect of DA and
study questions such as: how many augmented samples are needed to correctly
estimate the information encoded by that DA? How does the augmentation policy
impact the final parameters of a model? We derive several quantities in
close-form, such as the expectation and variance of an image, loss, and model's
output under a given DA distribution. Those derivations open new avenues to
quantify the benefits and limitations of DA. For example, we show that common
DAs require tens of thousands of samples for the loss at hand to be correctly
estimated and for the model training to converge. We show that for a training
loss to be stable under DA sampling, the model's saliency map (gradient of the
loss with respect to the model's input) must align with the smallest
eigenvector of the sample variance under the considered DA augmentation,
hinting at a possible explanation on why models tend to shift their focus from
edges to textures.
- Abstract(参考訳): Data-Augmentation (DA)はタスクやデータセットのパフォーマンスを改善することで知られている。
我々は,daの効果を理論的に解析し,そのdaで符号化された情報を正確に推定するための拡張サンプルはいくつ必要か?
拡張ポリシーはモデルの最終的なパラメータにどのように影響しますか?
我々は、所定のDA分布の下で、画像の期待と分散、損失、モデルの出力など、いくつかのクローズドな形式を導出する。
これらの導出はDAの利点と限界を定量化する新しい道を開く。
例えば、一般的なDAは、与えられた損失を正確に推定し、モデルトレーニングが収束するために数万のサンプルを必要とすることを示す。
daサンプリング下でトレーニング損失が安定であるためには、モデルのサリエンシーマップ(モデルの入力に対する損失の勾配)は、da加算が考慮されるサンプル分散の最小の固有ベクトルと一致しなければならないことを示し、なぜモデルが焦点をエッジからテクスチャにシフトする傾向があるのかを示唆する。
関連論文リスト
- Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Data Augmentation for Seizure Prediction with Generative Diffusion Model [26.967247641926814]
重症度予測は患者の生活改善に非常に重要である。
初期データと中間データの間の深刻な不均衡問題は、依然として大きな課題となっている。
データ拡張は、この問題を解決するための直感的な方法です。
DiffEEGと呼ばれる拡散モデルを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T05:44:53Z) - Interpreting and Improving Diffusion Models from an Optimization Perspective [4.5993996573872185]
我々はこの観測を用いて、ユークリッド距離関数に適用された近似勾配勾配勾配として拡散モデルを解釈する。
本稿では,理論結果からの洞察を用いてDDIMを一般化した新しい勾配推定サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:56:33Z) - Explanation Shift: How Did the Distribution Shift Impact the Model? [23.403838118256907]
本研究では,分布変化による説明特性の変化について検討した。
我々は、合成例と実世界のデータセットを用いて、異なる種類の分布シフトを分析する。
我々は、実験を再現するために使用されるコードと同様に、オープンソースのPythonパッケージでメソッドをリリースします。
論文 参考訳(メタデータ) (2023-03-14T17:13:01Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Flexible Amortized Variational Inference in qBOLD MRI [56.4324135502282]
データから酸素抽出率(OEF)と脱酸素血液量(DBV)をより明瞭に決定する。
既存の推論手法では、DBVを過大評価しながら非常にノイズの多い、過小評価されたEFマップが得られる傾向にある。
本研究は, OEFとDBVの可算分布を推定できる確率論的機械学習手法について述べる。
論文 参考訳(メタデータ) (2022-03-11T10:47:16Z) - Diffusion Causal Models for Counterfactual Estimation [18.438307666925425]
本稿では,観測画像データから因果構造を推定する作業について考察する。
Diff-SCMは,近年の発電エネルギーモデルの発展を基盤とした構造因果モデルである。
Diff-SCMはMNISTデータに基づくベースラインよりも現実的で最小限のデファクトアルを生成しており、ImageNetデータにも適用可能である。
論文 参考訳(メタデータ) (2022-02-21T12:23:01Z) - OMASGAN: Out-of-Distribution Minimum Anomaly Score GAN for Sample
Generation on the Boundary [0.0]
生成モデルは, アウト・オブ・ディストリビューション(OoD)サンプルに高い可能性と低い再構成損失を設定した。
OMASGANは、負のデータ増大方法で、推定分布境界上の異常サンプルを生成する。
OMASGANは、分布境界上に発生する異常最小値のOoDサンプルを含むことにより、再訓練を行う。
論文 参考訳(メタデータ) (2021-10-28T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。