論文の概要: How much is a noisy image worth? Data Scaling Laws for Ambient Diffusion
- arxiv url: http://arxiv.org/abs/2411.02780v1
- Date: Tue, 05 Nov 2024 03:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:21.582671
- Title: How much is a noisy image worth? Data Scaling Laws for Ambient Diffusion
- Title(参考訳): ノイズの多い画像の価値はいくらか? アンビエント拡散のためのデータスケーリング法則
- Authors: Giannis Daras, Yeshwanth Cherapanamjeri, Constantinos Daskalakis,
- Abstract要約: Ambient Diffusionと関連するフレームワークは、単に破損したデータで拡散モデルをトレーニングする。
汚職レベルが異なるデータに対して80ドル以上のモデルをトレーニングすることで、この現象を大規模に研究する。
これらのサンプルサイズでは、ノイズの多いデータのみをトレーニングする場合、クリーンなデータでトレーニングされたモデルの性能と一致させることは不可能である。
- 参考スコア(独自算出の注目度): 26.92043440824759
- License:
- Abstract: The quality of generative models depends on the quality of the data they are trained on. Creating large-scale, high-quality datasets is often expensive and sometimes impossible, e.g. in certain scientific applications where there is no access to clean data due to physical or instrumentation constraints. Ambient Diffusion and related frameworks train diffusion models with solely corrupted data (which are usually cheaper to acquire) but ambient models significantly underperform models trained on clean data. We study this phenomenon at scale by training more than $80$ models on data with different corruption levels across three datasets ranging from $30,000$ to $\approx 1.3$M samples. We show that it is impossible, at these sample sizes, to match the performance of models trained on clean data when only training on noisy data. Yet, a combination of a small set of clean data (e.g.~$10\%$ of the total dataset) and a large set of highly noisy data suffices to reach the performance of models trained solely on similar-size datasets of clean data, and in particular to achieve near state-of-the-art performance. We provide theoretical evidence for our findings by developing novel sample complexity bounds for learning from Gaussian Mixtures with heterogeneous variances. Our theoretical model suggests that, for large enough datasets, the effective marginal utility of a noisy sample is exponentially worse than that of a clean sample. Providing a small set of clean samples can significantly reduce the sample size requirements for noisy data, as we also observe in our experiments.
- Abstract(参考訳): 生成モデルの品質は、トレーニングされたデータの品質に依存します。
大規模で高品質なデータセットの作成は、物理や機器の制約によりクリーンなデータにアクセスできない科学的な応用のように、高価で時には不可能であることが多い。
Ambient Diffusionと関連するフレームワークは、単に破損したデータ(通常は入手する費用が安い)で拡散モデルを訓練するが、環境モデルはクリーンなデータで訓練されたモデルでは著しく性能が劣る。
我々は、この現象を3つのデータセットから3万ドルから1.3ドルのサンプルまで、さまざまな汚職レベルを持つデータに対して80ドル以上のモデルをトレーニングすることで、大規模に研究する。
これらのサンプルサイズでは、ノイズの多いデータのみをトレーニングする場合、クリーンなデータでトレーニングされたモデルの性能と一致させることは不可能である。
しかし、小さなクリーンデータのセット(例えば、全データセットの$10\%)と、非常にノイズの多いデータの大規模なセットの組み合わせは、同じサイズのクリーンデータのデータセットのみにトレーニングされたモデルのパフォーマンス、特に最先端のパフォーマンスを達成するのに十分です。
ヘテロジニアス変異を持つガウス混合系から学習するための新しいサンプル複雑性境界を開発することにより,本研究の理論的証拠を提供する。
我々の理論モデルでは、十分な量のデータセットに対して、ノイズの多いサンプルの有効限界効用は、クリーンなサンプルのそれよりも指数関数的に悪いことが示唆されている。
クリーンなサンプルの小さなセットを提供することで、ノイズの多いデータのサンプルサイズ要件を大幅に削減することができる。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Multisample Flow Matching: Straightening Flows with Minibatch Couplings [38.82598694134521]
連続時間生成モデルを訓練するためのシミュレーション不要な手法は、ノイズ分布と個々のデータサンプルの間の確率経路を構築する。
データとノイズサンプル間の非自明な結合を利用するより一般的なフレームワークであるMultisample Flow Matchingを提案する。
提案手法は,イメージネットデータセットのサンプル一貫性を向上し,低コストなサンプル生成に繋がることを示す。
論文 参考訳(メタデータ) (2023-04-28T11:33:08Z) - Forgetting Data from Pre-trained GANs [28.326418377665345]
特定の種類のサンプルを忘れないように、トレーニング後にモデルを後編集する方法について検討する。
我々は,GANに対して,忘れるべきサンプルの表現方法が異なる3つの異なるアルゴリズムを提供する。
我々のアルゴリズムは、完全再トレーニングのコストのごく一部で、高品質を維持しながらデータを忘れることができる。
論文 参考訳(メタデータ) (2022-06-29T03:46:16Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Improved Denoising Diffusion Probabilistic Models [4.919647298882951]
その結果,ddpmは高いサンプル品質を維持しつつ,競合的なログライク性を達成できることがわかった。
また,逆拡散過程の学習分散により,フォワードパスが桁違いに小さくサンプリングできることがわかった。
これらのモデルのサンプルの品質と可能性について,モデルのキャパシティとトレーニング計算でスムーズに拡張できることを示し,スケーラビリティを向上する。
論文 参考訳(メタデータ) (2021-02-18T23:44:17Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。