Fugu-MT 論文翻訳(概要): Ambient Dataloops: Generative Models for Dataset Refinement

論文の概要: Ambient Dataloops: Generative Models for Dataset Refinement

arxiv url: http://arxiv.org/abs/2601.15417v1
Date: Wed, 21 Jan 2026 19:29:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-23 21:37:20.398517
Title: Ambient Dataloops: Generative Models for Dataset Refinement
Title（参考訳）: Ambient Dataloops: データセットのリファインメントのための生成モデル
Authors: Adrián Rodríguez-Muñoz, William Daspit, Adam Klivans, Antonio Torralba, Constantinos Daskalakis, Giannis Daras,
Abstract要約: Ambient Dataloopsはデータセットを精錬するための反復的なフレームワークであり、拡散モデルが基盤となるデータ分散を簡単に学習できるようにする。本稿では,データセット・モデル共進化プロセスを提案する。本手法の各イテレーションにおいて,データセットは徐々に高品質になり,それに応じて改善される。経験的に、アンビエントデータループは、無条件およびテキスト条件の画像生成とde novoタンパク質の設計において最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 38.331195685096894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Ambient Dataloops, an iterative framework for refining datasets that makes it easier for diffusion models to learn the underlying data distribution. Modern datasets contain samples of highly varying quality, and training directly on such heterogeneous data often yields suboptimal models. We propose a dataset-model co-evolution process; at each iteration of our method, the dataset becomes progressively higher quality, and the model improves accordingly. To avoid destructive self-consuming loops, at each generation, we treat the synthetically improved samples as noisy, but at a slightly lower noisy level than the previous iteration, and we use Ambient Diffusion techniques for learning under corruption. Empirically, Ambient Dataloops achieve state-of-the-art performance in unconditional and text-conditional image generation and de novo protein design. We further provide a theoretical justification for the proposed framework that captures the benefits of the data looping procedure.
Abstract（参考訳）: 本研究では,データセットを精錬する反復的フレームワークであるAmbient Dataloopsを提案する。現代のデータセットには、非常に異なる品質のサンプルが含まれており、そのような異種データを直接訓練することで、しばしば準最適モデルが得られる。本稿では,データセット・モデル共進化プロセスを提案する。本手法の各イテレーションにおいて,データセットは徐々に高品質になり,それに応じて改善される。破壊的自己消費ループを回避するため, 各世代において, 総合的に改良したサンプルをノイズとして扱うが, 前回に比べて若干ノイズレベルが低く, 汚職下での学習にはアンビエント拡散法を用いる。経験的に、アンビエントデータループは、無条件およびテキスト条件の画像生成とde novoタンパク質の設計において最先端のパフォーマンスを達成する。さらに、データループ処理の利点を捉えたフレームワークについて理論的に正当化する。

論文の概要: Ambient Dataloops: Generative Models for Dataset Refinement

関連論文リスト