Fugu-MT 論文翻訳(概要): On the Limitation of Diffusion Models for Synthesizing Training Datasets

論文の概要: On the Limitation of Diffusion Models for Synthesizing Training Datasets

arxiv url: http://arxiv.org/abs/2311.13090v1
Date: Wed, 22 Nov 2023 01:42:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 16:31:09.234723
Title: On the Limitation of Diffusion Models for Synthesizing Training Datasets
Title（参考訳）: トレーニングデータセット合成のための拡散モデルの限界について
Authors: Shin'ya Yamaguchi and Takuma Fukuda
Abstract要約: 本稿では, 実試料から再構成した合成試料を拡散・逆過程により解析することにより, 合成試料と実試料とのギャップを解明する。その結果, 合成データセットは, 最先端拡散モデルを用いても, 実際のデータセットの分類性能を低下させることがわかった。
参考スコア（独自算出の注目度）: 5.384630221560811
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synthetic samples from diffusion models are promising for leveraging in training discriminative models as replications of real training datasets. However, we found that the synthetic datasets degrade classification performance over real datasets even when using state-of-the-art diffusion models. This means that modern diffusion models do not perfectly represent the data distribution for the purpose of replicating datasets for training discriminative tasks. This paper investigates the gap between synthetic and real samples by analyzing the synthetic samples reconstructed from real samples through the diffusion and reverse process. By varying the time steps starting the reverse process in the reconstruction, we can control the trade-off between the information in the original real data and the information added by diffusion models. Through assessing the reconstructed samples and trained models, we found that the synthetic data are concentrated in modes of the training data distribution as the reverse step increases, and thus, they are difficult to cover the outer edges of the distribution. Our findings imply that modern diffusion models are insufficient to replicate training data distribution perfectly, and there is room for the improvement of generative modeling in the replication of training datasets.
Abstract（参考訳）: 拡散モデルからの合成サンプルは、実際のトレーニングデータセットの複製として、トレーニング識別モデルの活用に有望である。しかし,最新の拡散モデルを用いても,合成データセットは実際のデータセットよりも分類性能を劣化させることがわかった。これは、現代の拡散モデルは、識別タスクを訓練するためのデータセットを複製するために、データ分布を完全に表現していないことを意味する。本稿では, 実試料から再構成した合成試料を拡散・逆過程により解析することにより, 合成試料と実試料とのギャップを解明する。再構成における逆過程を開始する時間ステップを変化させることで、元の実データと拡散モデルによって付加される情報との間のトレードオフを制御できる。再構成されたサンプルとトレーニングモデルを評価することで, 合成データは, 逆ステップの増加に伴ってトレーニングデータ分布のモードに集中し, 分布の外縁を覆うことが困難であることを見出した。この結果から,現代の拡散モデルではトレーニングデータの分散を完璧に再現するには不十分であることが示唆され,学習データセットの複製における生成モデルの改善の余地がある。

関連論文リスト

Multimodal Atmospheric Super-Resolution With Deep Generative Models [0.0]
スコアベース拡散モデリング(Score-based diffusion modeling)は、複雑な分布からサンプリングできる生成機械学習アルゴリズムである。本稿では,高次元力学系の超解像にそのような概念を適用し,低分解能および実験的に観察されたスパースセンサ測定のリアルタイム利用性を考える。
論文参考訳（メタデータ） (2025-06-28T06:47:09Z)
SeisRDT: Latent Diffusion Model Based On Representation Learning For Seismic Data Interpolation And Reconstruction [11.530476559185878]
地理的、物理的、経済的要因などの制限のため、収集された地震データは、しばしば痕跡を欠いている。従来の地震データ再構成手法は、多数の経験的パラメータを選択し、大規模な連続的欠落トレースを扱うのに苦労する課題に直面している。地震データ再構成のための表現学習を利用した潜時拡散変換器を提案する。
論文参考訳（メタデータ） (2025-03-17T10:16:35Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文参考訳（メタデータ） (2024-06-23T20:34:18Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Lecture Notes in Probabilistic Diffusion Models [0.5361320134021585]
拡散モデルは非平衡熱力学に基づいてゆるやかにモデル化される。拡散モデルは、元のデータサンプルが属するデータ多様体を学習する。拡散モデルは、変分オートエンコーダやフローモデルとは異なり、元のデータと同じ次元の潜伏変数を持つ。
論文参考訳（メタデータ） (2023-12-16T09:36:54Z)
Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文参考訳（メタデータ） (2023-10-15T04:24:42Z)
Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task [20.749514363389878]
合成環境における条件拡散モデルにおける合成一般化について検討する。サンプルを生成する能力が出現する順番は、基礎となるデータ生成プロセスの構造によって制御される。本研究は、データ中心の観点から、生成モデルにおける能力と構成性を理解するための基礎を築いた。
論文参考訳（メタデータ） (2023-10-13T18:00:59Z)
On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文参考訳（メタデータ） (2023-09-30T16:41:04Z)
Score Approximation, Estimation and Distribution Recovery of Diffusion Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文参考訳（メタデータ） (2023-02-14T17:02:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。