論文の概要: Ambient Dataloops: Generative Models for Dataset Refinement
- arxiv url: http://arxiv.org/abs/2601.15417v1
- Date: Wed, 21 Jan 2026 19:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.398517
- Title: Ambient Dataloops: Generative Models for Dataset Refinement
- Title(参考訳): Ambient Dataloops: データセットのリファインメントのための生成モデル
- Authors: Adrián Rodríguez-Muñoz, William Daspit, Adam Klivans, Antonio Torralba, Constantinos Daskalakis, Giannis Daras,
- Abstract要約: Ambient Dataloopsはデータセットを精錬するための反復的なフレームワークであり、拡散モデルが基盤となるデータ分散を簡単に学習できるようにする。
本稿では,データセット・モデル共進化プロセスを提案する。本手法の各イテレーションにおいて,データセットは徐々に高品質になり,それに応じて改善される。
経験的に、アンビエントデータループは、無条件およびテキスト条件の画像生成とde novoタンパク質の設計において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 38.331195685096894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Ambient Dataloops, an iterative framework for refining datasets that makes it easier for diffusion models to learn the underlying data distribution. Modern datasets contain samples of highly varying quality, and training directly on such heterogeneous data often yields suboptimal models. We propose a dataset-model co-evolution process; at each iteration of our method, the dataset becomes progressively higher quality, and the model improves accordingly. To avoid destructive self-consuming loops, at each generation, we treat the synthetically improved samples as noisy, but at a slightly lower noisy level than the previous iteration, and we use Ambient Diffusion techniques for learning under corruption. Empirically, Ambient Dataloops achieve state-of-the-art performance in unconditional and text-conditional image generation and de novo protein design. We further provide a theoretical justification for the proposed framework that captures the benefits of the data looping procedure.
- Abstract(参考訳): 本研究では,データセットを精錬する反復的フレームワークであるAmbient Dataloopsを提案する。
現代のデータセットには、非常に異なる品質のサンプルが含まれており、そのような異種データを直接訓練することで、しばしば準最適モデルが得られる。
本稿では,データセット・モデル共進化プロセスを提案する。本手法の各イテレーションにおいて,データセットは徐々に高品質になり,それに応じて改善される。
破壊的自己消費ループを回避するため, 各世代において, 総合的に改良したサンプルをノイズとして扱うが, 前回に比べて若干ノイズレベルが低く, 汚職下での学習にはアンビエント拡散法を用いる。
経験的に、アンビエントデータループは、無条件およびテキスト条件の画像生成とde novoタンパク質の設計において最先端のパフォーマンスを達成する。
さらに、データループ処理の利点を捉えたフレームワークについて理論的に正当化する。
関連論文リスト
- Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。
高品質な出力を生成するには、多くの離散化ステップが必要です。
クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:59:03Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。