論文の概要: Autoguided Online Data Curation for Diffusion Model Training
- arxiv url: http://arxiv.org/abs/2509.15267v1
- Date: Thu, 18 Sep 2025 10:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.835104
- Title: Autoguided Online Data Curation for Diffusion Model Training
- Title(参考訳): 拡散モデルトレーニングのための自動オンラインデータキュレーション
- Authors: Valeria Pais, Luis Oala, Daniele Faccio, Marco Aversa,
- Abstract要約: 近年開発された自己誘導法とオンラインデータ選択法により,生成拡散モデルの学習時間とサンプル効率が向上するか否かを検討する。
制御された2次元合成データ生成タスクと3x64x64)-D画像生成におけるデータキュレーションの組み合わせを評価する。
実験全体を通して、自己誘導は一貫してサンプルの品質と多様性を改善します。
- 参考スコア(独自算出の注目度): 3.610779934162847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The costs of generative model compute rekindled promises and hopes for efficient data curation. In this work, we investigate whether recently developed autoguidance and online data selection methods can improve the time and sample efficiency of training generative diffusion models. We integrate joint example selection (JEST) and autoguidance into a unified code base for fast ablation and benchmarking. We evaluate combinations of data curation on a controlled 2-D synthetic data generation task as well as (3x64x64)-D image generation. Our comparisons are made at equal wall-clock time and equal number of samples, explicitly accounting for the overhead of selection. Across experiments, autoguidance consistently improves sample quality and diversity. Early AJEST (applying selection only at the beginning of training) can match or modestly exceed autoguidance alone in data efficiency on both tasks. However, its time overhead and added complexity make autoguidance or uniform random data selection preferable in most situations. These findings suggest that while targeted online selection can yield efficiency gains in early training, robust sample quality improvements are primarily driven by autoguidance. We discuss limitations and scope, and outline when data selection may be beneficial.
- Abstract(参考訳): 生成モデル計算のコストは、効率的なデータキュレーションへの期待と約束を再定義した。
本研究では,最近開発された自己指導法とオンラインデータ選択法が,生成拡散モデルの学習時間とサンプル効率を向上させることができるかどうかを検討する。
高速なアブレーションとベンチマークのために、ジョイントサンプルセレクション(JEST)とオートガイダンスを統一されたコードベースに統合します。
制御された2次元合成データ生成タスクと3x64x64)-D画像生成におけるデータキュレーションの組み合わせを評価する。
我々の比較は、壁時計時間とサンプル数の等しい値で行われ、選択のオーバーヘッドを明示的に考慮している。
実験全体を通して、自己誘導は一貫してサンプルの品質と多様性を改善します。
初期のAJEST(トレーニングの開始時にのみ選択を適用)は、両方のタスクのデータ効率において、自動誘導のみにマッチまたは緩やかに超える。
しかし、その時間オーバーヘッドと複雑さの追加により、ほとんどの状況では、自動誘導や均一なランダムなデータ選択が好まれる。
これらの結果から,対象とするオンライン選択は早期学習において効率向上をもたらすが,頑健なサンプル品質改善は主として自己指導によって行われることが示唆された。
制限とスコープについて論じ、データ選択がいつ役に立つのかを概説する。
関連論文リスト
- Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning [35.359482937263145]
そこで本研究では,学習促進のための雑音対応を高精度かつ効率的に識別するDISSect法を提案する。
具体的には,雑音対応がコントラスト学習に与える影響を再考し,現在のモデルと過去のモデルとの相関関係の差が,サンプル品質の特徴づけに有益であることを示す。
論文 参考訳(メタデータ) (2025-07-17T11:13:44Z) - Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文 参考訳(メタデータ) (2025-05-26T03:54:47Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。