論文の概要: Your Student is Better Than Expected: Adaptive Teacher-Student
Collaboration for Text-Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.10835v2
- Date: Thu, 28 Dec 2023 18:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:09:12.412451
- Title: Your Student is Better Than Expected: Adaptive Teacher-Student
Collaboration for Text-Conditional Diffusion Models
- Title(参考訳): あなたの学生は予想以上に良い: テキスト・コンディション・拡散モデルのための適応型教師・学生協調
- Authors: Nikita Starodubcev, Artem Fedorov, Artem Babenko and Dmitry Baranchuk
- Abstract要約: 教師のテキスト・画像拡散モデルによるサンプルの相対的品質とその蒸留された学生版について検討する。
学生と教師の拡散モデルによる効果的なテキスト・画像合成のための適応的協調手法を提案する。
- 参考スコア(独自算出の注目度): 26.624869629120138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation methods have recently shown to be a promising
direction to speedup the synthesis of large-scale diffusion models by requiring
only a few inference steps. While several powerful distillation methods were
recently proposed, the overall quality of student samples is typically lower
compared to the teacher ones, which hinders their practical usage. In this
work, we investigate the relative quality of samples produced by the teacher
text-to-image diffusion model and its distilled student version. As our main
empirical finding, we discover that a noticeable portion of student samples
exhibit superior fidelity compared to the teacher ones, despite the
``approximate'' nature of the student. Based on this finding, we propose an
adaptive collaboration between student and teacher diffusion models for
effective text-to-image synthesis. Specifically, the distilled model produces
the initial sample, and then an oracle decides whether it needs further
improvements with a slow teacher model. Extensive experiments demonstrate that
the designed pipeline surpasses state-of-the-art text-to-image alternatives for
various inference budgets in terms of human preference. Furthermore, the
proposed approach can be naturally used in popular applications such as
text-guided image editing and controllable generation.
- Abstract(参考訳): 近年, 知識蒸留法は, 少数の推論ステップを必要とせず, 大規模拡散モデルの高速化に寄与している。
近年, 強力な蒸留法が提案されているが, 学生試料の総合的品質は, 教師のものに比べて低く, 実用性に支障をきたす。
本研究では,教師のテキスト・画像拡散モデルによるサンプルの相対的品質とその蒸留された学生版について検討する。
実験結果から, 生徒の「おおよその」性格にもかかわらず, 生徒のサンプルの目に見える部分が教師のものに比して優れた忠実性を示すことが判明した。
そこで本研究では,学生と教師の拡散モデルを用いた効果的なテキスト・画像合成手法を提案する。
具体的には、蒸留したモデルが初期サンプルを生成し、その後、オラクルが遅い教師モデルでさらなる改善が必要であるかどうかを判断する。
広範な実験により、設計されたパイプラインは、人間の好みの観点から様々な推論予算のための最先端のテキストから画像への代替案を上回ることが示されている。
さらに,提案手法はテキストガイド画像編集や制御可能な生成といった一般的なアプリケーションで自然に使用できる。
関連論文リスト
- SFDDM: Single-fold Distillation for Diffusion models [4.688721356965585]
本研究では,教師の拡散モデルを任意のステップの生徒モデルに柔軟に圧縮できる一次元蒸留アルゴリズムSFDDMを提案する。
4つのデータセットの実験では、SFDDMは、ステップを約1%に減らした高品質なデータをサンプリングできることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:11:14Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Improving Neural Topic Models with Wasserstein Knowledge Distillation [0.8962460460173959]
本稿では,トピックの品質を損なうことなく,文脈化されたトピックモデルを圧縮する知識蒸留フレームワークを提案する。
実験により, 知識蒸留の訓練を受けた学生は, 本来の学生モデルよりも, トピックコヒーレンスをはるかに高い精度で達成できることがわかった。
論文 参考訳(メタデータ) (2023-03-27T16:07:44Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。