論文の概要: Beyond and Free from Diffusion: Invertible Guided Consistency Training
- arxiv url: http://arxiv.org/abs/2502.05391v1
- Date: Sat, 08 Feb 2025 00:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:19.373364
- Title: Beyond and Free from Diffusion: Invertible Guided Consistency Training
- Title(参考訳): 拡散と自由:非可逆的ガイド型一貫性トレーニング
- Authors: Chia-Hong Hsu, Shiu-hong Kao, Randall Balestriero,
- Abstract要約: iGCTは、DMの訓練と蒸留を必要とせず、高速でガイドされた画像生成と編集に寄与する。
CIFAR-10 と ImageNet64 を用いた実験により,iGCT はCFG と比較して FID と精度が有意に向上することが示された。
- 参考スコア(独自算出の注目度): 12.277762115388187
- License:
- Abstract: Guidance in image generation steers models towards higher-quality or more targeted outputs, typically achieved in Diffusion Models (DMs) via Classifier-free Guidance (CFG). However, recent Consistency Models (CMs), which offer fewer function evaluations, rely on distilling CFG knowledge from pretrained DMs to achieve guidance, making them costly and inflexible. In this work, we propose invertible Guided Consistency Training (iGCT), a novel training framework for guided CMs that is entirely data-driven. iGCT, as a pioneering work, contributes to fast and guided image generation and editing without requiring the training and distillation of DMs, greatly reducing the overall compute requirements. iGCT addresses the saturation artifacts seen in CFG under high guidance scales. Our extensive experiments on CIFAR-10 and ImageNet64 show that iGCT significantly improves FID and precision compared to CFG. At a guidance of 13, iGCT improves precision to 0.8, while DM's drops to 0.47. Our work takes the first step toward enabling guidance and inversion for CMs without relying on DMs.
- Abstract(参考訳): 画像生成ステアのガイダンスは、高品質またはよりターゲットの出力に向けられ、通常、ディフュージョンモデル(DM)において、分類自由誘導(CFG)を介して達成される。
しかし、機能評価の少ない最近のCM(Consistency Models)は、事前訓練されたDMからCFG知識を蒸留して誘導し、高価で柔軟なものにしている。
本研究では,データ駆動型ガイド型CMのための新しいトレーニングフレームワークである,非可逆ガイド型一貫性トレーニング(iGCT)を提案する。
iGCTは先駆的な研究として、DMの訓練と蒸留を必要とせず、高速でガイド付きの画像生成と編集に寄与し、全体的な計算要求を大幅に削減する。
iGCTはCFGで見られる飽和アーティファクトを高誘導スケールで処理する。
CIFAR-10 と ImageNet64 の広範な実験により,iGCT はCFG と比較して FID と精度を著しく向上することが示された。
13のガイダンスでは、iGCTは精度を0.8に改善し、DMは0.47に低下した。
我々の研究は、DMに頼ることなく、CMのガイダンスと逆転を可能にするための第一歩を踏み出した。
関連論文リスト
- Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文 参考訳(メタデータ) (2024-11-23T00:22:21Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - TLCM: Training-efficient Latent Consistency Model for Image Generation with 2-8 Steps [12.395969703425648]
潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。
本稿では,これらの課題を克服するために,学習効率の高い遅延一貫性モデル(TLCM)を提案する。
A100 GPUでのトレーニング時間はわずか70時間で、SDXLから蒸留した3ステップのTLCMは、33.68のCLIPスコアと、MSCOCO-2017 5Kベンチマークで5.97の美的スコアを達成した。
論文 参考訳(メタデータ) (2024-06-09T12:55:50Z) - Slight Corruption in Pre-training Data Makes Better Diffusion Models [71.90034201302397]
拡散モデル(DM)は、高品質な画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
DMは大規模なデータセットでの広範な事前トレーニングの恩恵を受ける。
しかしながら、事前トレーニングデータセットは、しばしば、データを正確に記述しないような、破損したペアを含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
論文 参考訳(メタデータ) (2024-05-30T21:35:48Z) - Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better [31.67038902035949]
Diffusion Models (DM) と Consistency Models (CM) は、様々なタスクにおいて優れた生成品質を持つ人気のある生成モデルである。
本研究では,SGDでは到達できないが,適切なチェックポイント平均化によって得られるような,高品質なモデルウェイトがしばしば存在することを明らかにする。
進化探索から導出される係数とトレーニング軌道に沿ったチェックポイントを組み合わせることで,DMとCMの性能を向上させる,シンプルで効率的かつ効率的なLCSCを提案する。
論文 参考訳(メタデータ) (2024-04-02T18:59:39Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z) - LGD: Label-guided Self-distillation for Object Detection [59.9972914042281]
我々はLGD(Label-Guided Self-Distillation)と呼ばれる汎用物体検出のための最初の自己蒸留フレームワークを提案する。
本フレームワークは, 学習知識を得るために, スパースラベル-外観符号化, オブジェクト間関係適応, オブジェクト内知識マッピングを含む。
従来の教師ベースのFGFIと比較すると、LGDは予習された教師を必要とせず、本質的な学生学習よりも51%低い訓練コストで性能が向上する。
論文 参考訳(メタデータ) (2021-09-23T16:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。