論文の概要: Ambient Dataloops: Generative Models for Dataset Refinement
- arxiv url: http://arxiv.org/abs/2601.15417v1
- Date: Wed, 21 Jan 2026 19:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.398517
- Title: Ambient Dataloops: Generative Models for Dataset Refinement
- Title(参考訳): Ambient Dataloops: データセットのリファインメントのための生成モデル
- Authors: Adrián Rodríguez-Muñoz, William Daspit, Adam Klivans, Antonio Torralba, Constantinos Daskalakis, Giannis Daras,
- Abstract要約: Ambient Dataloopsはデータセットを精錬するための反復的なフレームワークであり、拡散モデルが基盤となるデータ分散を簡単に学習できるようにする。
本稿では,データセット・モデル共進化プロセスを提案する。本手法の各イテレーションにおいて,データセットは徐々に高品質になり,それに応じて改善される。
経験的に、アンビエントデータループは、無条件およびテキスト条件の画像生成とde novoタンパク質の設計において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 38.331195685096894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Ambient Dataloops, an iterative framework for refining datasets that makes it easier for diffusion models to learn the underlying data distribution. Modern datasets contain samples of highly varying quality, and training directly on such heterogeneous data often yields suboptimal models. We propose a dataset-model co-evolution process; at each iteration of our method, the dataset becomes progressively higher quality, and the model improves accordingly. To avoid destructive self-consuming loops, at each generation, we treat the synthetically improved samples as noisy, but at a slightly lower noisy level than the previous iteration, and we use Ambient Diffusion techniques for learning under corruption. Empirically, Ambient Dataloops achieve state-of-the-art performance in unconditional and text-conditional image generation and de novo protein design. We further provide a theoretical justification for the proposed framework that captures the benefits of the data looping procedure.
- Abstract(参考訳): 本研究では,データセットを精錬する反復的フレームワークであるAmbient Dataloopsを提案する。
現代のデータセットには、非常に異なる品質のサンプルが含まれており、そのような異種データを直接訓練することで、しばしば準最適モデルが得られる。
本稿では,データセット・モデル共進化プロセスを提案する。本手法の各イテレーションにおいて,データセットは徐々に高品質になり,それに応じて改善される。
破壊的自己消費ループを回避するため, 各世代において, 総合的に改良したサンプルをノイズとして扱うが, 前回に比べて若干ノイズレベルが低く, 汚職下での学習にはアンビエント拡散法を用いる。
経験的に、アンビエントデータループは、無条件およびテキスト条件の画像生成とde novoタンパク質の設計において最先端のパフォーマンスを達成する。
さらに、データループ処理の利点を捉えたフレームワークについて理論的に正当化する。
関連論文リスト
- Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。