論文の概要: EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
- arxiv url: http://arxiv.org/abs/2510.20512v1
- Date: Thu, 23 Oct 2025 12:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.923762
- Title: EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
- Title(参考訳): EchoDistill: 一段階拡散パーソナライゼーションのための双方向概念蒸留
- Authors: Yixiong Yang, Tao Wu, Senmao Li, Shiqi Yang, Yaxing Wang, Joost van de Weijer, Kai Wang,
- Abstract要約: 本研究では,一段階拡散パーソナライゼーションを実現するための双方向蒸留フレームワークであるEchoDistillを提案する。
本手法は,多段階拡散モデル (教師) と一段階拡散モデル (学生) を同時に学習するエンド・ツー・エンドの学習プロセスを含む。
実験により、この協調的なフレームワークは1-SDP設定よりも既存のパーソナライズ手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 30.814807961528572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in accelerating text-to-image (T2I) diffusion models have enabled the synthesis of high-fidelity images even in a single step. However, personalizing these models to incorporate novel concepts remains a challenge due to the limited capacity of one-step models to capture new concept distributions effectively. We propose a bidirectional concept distillation framework, EchoDistill, to enable one-step diffusion personalization (1-SDP). Our approach involves an end-to-end training process where a multi-step diffusion model (teacher) and a one-step diffusion model (student) are trained simultaneously. The concept is first distilled from the teacher model to the student, and then echoed back from the student to the teacher. During the EchoDistill, we share the text encoder between the two models to ensure consistent semantic understanding. Following this, the student model is optimized with adversarial losses to align with the real image distribution and with alignment losses to maintain consistency with the teacher's output. Furthermore, we introduce the bidirectional echoing refinement strategy, wherein the student model leverages its faster generation capability to feedback to the teacher model. This bidirectional concept distillation mechanism not only enhances the student ability to personalize novel concepts but also improves the generative quality of the teacher model. Our experiments demonstrate that this collaborative framework significantly outperforms existing personalization methods over the 1-SDP setup, establishing a novel paradigm for rapid and effective personalization in T2I diffusion models.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ拡散モデル(T2I)の進歩により,単一のステップでも高忠実度画像の合成が可能になった。
しかしながら、新しい概念を取り入れるためにこれらのモデルをパーソナライズすることは、新しい概念分布を効果的に捉えるためのワンステップモデルが限られているため、依然として課題である。
本研究では,一段階拡散パーソナライゼーション(1-SDP)を実現するための双方向蒸留フレームワークであるEchoDistillを提案する。
本手法は,多段階拡散モデル (教師) と一段階拡散モデル (学生) を同時に学習するエンド・ツー・エンドの学習プロセスを含む。
この概念はまず教師モデルから生徒に蒸留され、その後生徒から教師に反響する。
EchoDistillでは、2つのモデル間でテキストエンコーダを共有し、一貫性のあるセマンティック理解を保証する。
これに続いて、生徒モデルは、実像分布と整合する逆損失と、教師の出力との整合性を維持するためのアライメント損失とを最適化する。
さらに,教師モデルに対するフィードバックに,生徒モデルがその高速な生成能力を活用する双方向エコー改善戦略を導入する。
この双方向のコンセプト蒸留機構は、新規概念をパーソナライズする生徒の能力を高めるだけでなく、教師モデルの生成品質を向上させる。
実験により,この協調的枠組みは,T2I拡散モデルにおける高速かつ効果的なパーソナライズのための新しいパラダイムを確立し,既存のパーソナライズ手法を1-SDP設定よりも大幅に上回っていることが示された。
関連論文リスト
- DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - SYNTHIA: Novel Concept Design with Affordance Composition [114.19366716161655]
所望の価格に基づいて,新規で機能的なコヒーレントなデザインを生成するためのフレームワークであるSynTHIAを紹介する。
我々は,我々のオントロジーに基づくカリキュラム学習手法を開発し,細粒度T2Iモデルと対比して,段階的に手頃な構成を学習する。
実験の結果,SynTHIAは最先端のT2Iモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-25T02:54:11Z) - Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
我々は,教師のスコア管理を完全に禁止する,新しい研修方法のファミリーを紹介する。
教師の重みによる学生モデルの初期化は依然として重要な課題である。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [24.046764908874703]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文 参考訳(メタデータ) (2024-12-12T17:14:58Z) - AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [3.5066393042242123]
本研究では,マルチコンセプト・ディコンタングルメントのための注意型手法であるAttenCraftを提案する。
注意点に基づく適応アルゴリズムを導入し,異なる概念に対するサンプリング比を推定する。
我々のモデルは,最新画像の忠実度と,ベースラインモデルに匹敵する即時忠実度という2つの問題を効果的に緩和する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - SFDDM: Single-fold Distillation for Diffusion models [4.688721356965585]
本研究では,教師の拡散モデルを任意のステップの生徒モデルに柔軟に圧縮できる一次元蒸留アルゴリズムSFDDMを提案する。
4つのデータセットの実験では、SFDDMは、ステップを約1%に減らした高品質なデータをサンプリングできることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:11:14Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。