論文の概要: Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection
- arxiv url: http://arxiv.org/abs/2512.16905v1
- Date: Thu, 18 Dec 2025 18:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.244599
- Title: Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection
- Title(参考訳): Alchemist: メタグラディエントデータ選択によるテキスト-画像モデルトレーニングにおける解錠効率
- Authors: Kaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao,
- Abstract要約: 本稿では,大規模テキストイメージデータペアから適切なサブセットを選択するメタグラディエントベースのフレームワーク**Alchemist*を提案する。
Alchemistは、テキストから画像へのモデルトレーニングのための、最初の自動、スケーラブル、メタグラディエントベースのデータ選択フレームワークである。
- 参考スコア(独自算出の注目度): 46.7396881133767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Text-to-Image (T2I) generative models, such as Imagen, Stable Diffusion, and FLUX, have led to remarkable improvements in visual quality. However, their performance is fundamentally limited by the quality of training data. Web-crawled and synthetic image datasets often contain low-quality or redundant samples, which lead to degraded visual fidelity, unstable training, and inefficient computation. Hence, effective data selection is crucial for improving data efficiency. Existing approaches rely on costly manual curation or heuristic scoring based on single-dimensional features in Text-to-Image data filtering. Although meta-learning based method has been explored in LLM, there is no adaptation for image modalities. To this end, we propose **Alchemist**, a meta-gradient-based framework to select a suitable subset from large-scale text-image data pairs. Our approach automatically learns to assess the influence of each sample by iteratively optimizing the model from a data-centric perspective. Alchemist consists of two key stages: data rating and data pruning. We train a lightweight rater to estimate each sample's influence based on gradient information, enhanced with multi-granularity perception. We then use the Shift-Gsampling strategy to select informative subsets for efficient model training. Alchemist is the first automatic, scalable, meta-gradient-based data selection framework for Text-to-Image model training. Experiments on both synthetic and web-crawled datasets demonstrate that Alchemist consistently improves visual quality and downstream performance. Training on an Alchemist-selected 50% of the data can outperform training on the full dataset.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデル(画像n、安定拡散、FLUX)の最近の進歩は、視覚的品質を著しく向上させた。
しかし、その性能はトレーニングデータの質によって根本的に制限されている。
Webcrawledおよびsynthetic image dataは、しばしば低品質または冗長なサンプルを含んでいるため、劣化した視覚的忠実度、不安定なトレーニング、非効率な計算につながる。
したがって、データ効率を改善するためには効果的なデータ選択が不可欠である。
既存のアプローチは、テキスト・ツー・イメージ・データ・フィルタリングの単一次元の特徴に基づく、コストのかかる手作業によるキュレーションやヒューリスティック・スコアリングに依存している。
LLMではメタラーニングに基づく手法が検討されているが,画像の適応性は認められていない。
この目的のために,大規模なテキストイメージデータペアから適切なサブセットを選択するメタグラディエントベースのフレームワーク**Alchemist**を提案する。
提案手法は,データ中心の観点からモデルを反復的に最適化することにより,各サンプルの影響を自動評価する。
アルケミストは、データレーティングとデータプルーニングの2つの重要なステージで構成されている。
我々は、勾配情報に基づいて各サンプルの影響を推定する軽量なレーダを訓練し、多粒度知覚で拡張する。
次に、Shift-Gsampling戦略を用いて、効率的なモデルトレーニングのための情報サブセットを選択する。
Alchemistは、テキストから画像へのモデルトレーニングのための、最初の自動、スケーラブル、メタグラディエントベースのデータ選択フレームワークである。
合成データセットとWebクローリングデータセットの両方の実験は、Alchemistが常に視覚的品質と下流のパフォーマンスを改善していることを示している。
Alchemistが選択したデータの50%のトレーニングは、完全なデータセットでのトレーニングよりも優れています。
関連論文リスト
- Diffusion Curriculum: Synthetic-to-Real Data Curriculum via Image-Guided Diffusion [16.356794123589246]
品質の低いデータや少ないデータは、実際にディープニューラルネットワークをトレーニングする上で大きな課題となっている。
拡散カリキュラム(DisCL)は、訓練段階ごとに画像合成のイメージガイダンスレベルを調整する。
DisCLは、多様性や品質に弱いかもしれない高感度画像を学習するウォームアップとして、高品質な画像から特徴を学ぶことに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-17T15:33:35Z) - HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。