論文の概要: TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
- arxiv url: http://arxiv.org/abs/2507.18192v1
- Date: Thu, 24 Jul 2025 08:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.242076
- Title: TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance
- Title(参考訳): TeEFusion: 分類器を不要にするためのテキスト埋め込み
- Authors: Minghao Fu, Guo-Hua Wang, Xiaohao Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang,
- Abstract要約: テキスト埋め込みに誘導の大きさを直接組み込む,新規で効率的な蒸留法TeEFusionを紹介する。
線形演算を使って条件付きおよび条件なしのテキスト埋め込みを融合することにより、TeEFusionは余分なパラメータを追加することなく、望ましいガイダンスを再構築する。
SD3のような最先端モデルを用いた実験により,本手法により,よりシンプルで効率的なサンプリング戦略で,教師のパフォーマンスを忠実に再現できることが示された。
- 参考スコア(独自算出の注目度): 23.375320072698297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image synthesis largely benefit from sophisticated sampling strategies and classifier-free guidance (CFG) to ensure high-quality generation. However, CFG's reliance on two forward passes, especially when combined with intricate sampling algorithms, results in prohibitively high inference costs. To address this, we introduce TeEFusion (\textbf{Te}xt \textbf{E}mbeddings \textbf{Fusion}), a novel and efficient distillation method that directly incorporates the guidance magnitude into the text embeddings and distills the teacher model's complex sampling strategy. By simply fusing conditional and unconditional text embeddings using linear operations, TeEFusion reconstructs the desired guidance without adding extra parameters, simultaneously enabling the student model to learn from the teacher's output produced via its sophisticated sampling approach. Extensive experiments on state-of-the-art models such as SD3 demonstrate that our method allows the student to closely mimic the teacher's performance with a far simpler and more efficient sampling strategy. Consequently, the student model achieves inference speeds up to 6$\times$ faster than the teacher model, while maintaining image quality at levels comparable to those obtained through the teacher's complex sampling approach. The code is publicly available at \href{https://github.com/AIDC-AI/TeEFusion}{github.com/AIDC-AI/TeEFusion}.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ合成の進歩は、高品質な生成を保証するため、洗練されたサンプリング戦略と分類器フリーガイダンス(CFG)の恩恵を受けている。
しかし、CFGの2つの前方パスへの依存は、特に複雑なサンプリングアルゴリズムと組み合わせた場合、非常に高い推論コストをもたらす。
このような問題に対処するために,教師モデルの複雑なサンプリング戦略を直接組み込んだ,新規かつ効率的な蒸留法であるTeEFusion(\textbf{Te}xt \textbf{E}mbeddings \textbf{Fusion})を紹介した。
条件付きおよび条件なしのテキスト埋め込みを線形操作で簡単に融合させることで、TeEFusionは、追加のパラメータを加えることなく、所望のガイダンスを再構築し、同時に、洗練されたサンプリングアプローチによって生成された教師の出力から学習できるようにする。
SD3のような最先端モデルに対する広範囲な実験により,本手法はよりシンプルで効率的なサンプリング戦略で,教師のパフォーマンスを忠実に再現できることを示した。
その結果、教師の複雑なサンプリング手法で得られたものと同等のレベルの画像品質を維持しながら、教師のモデルよりも最大6$\times$の速度で推論を行うことができる。
コードは \href{https://github.com/AIDC-AI/TeEFusion}{github.com/AIDC-AI/TeEFusion} で公開されている。
関連論文リスト
- SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。
TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。
拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文 参考訳(メタデータ) (2025-02-05T03:13:25Z) - READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。
本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。
提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-14T11:39:55Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Hybrid Data-Free Knowledge Distillation [11.773963069904955]
我々はtextbfHybrtextbfid textbfData-textbfFree textbfDistillation (HiDFD) と呼ばれるデータフリー知識蒸留法を提案する。
我々のHiDFDは、既存の手法の120倍少ない収集データを用いて最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-12-18T05:52:16Z) - KL-geodesics flow matching with a novel sampling scheme [4.347494885647007]
非自己回帰型言語モデルは全てのトークンを同時に生成し、従来の自己回帰型モデルよりも潜在的に高速である。
テキスト生成のための条件付きフローマッチング手法について検討する。
論文 参考訳(メタデータ) (2024-11-25T17:15:41Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、9つのベンチマークにおける最先端の微調整アプローチと比較される。
論文 参考訳(メタデータ) (2024-05-22T13:36:48Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Accelerating Diffusion Sampling with Classifier-based Feature
Distillation [20.704675568555082]
N/2$-step の教師サンプルとN/2$-step の生徒サンプルの出力画像を段階的に整列させることにより, 高速サンプリングのためのプログレッシブ蒸留を提案する。
教師の特徴分布を,データセットに依存しない分類器を用いて抽出し,性能向上を図る。
CIFAR-10実験は, 高品質で高速なサンプリングを実現する上で, 提案手法の優位性を示した。
論文 参考訳(メタデータ) (2022-11-22T06:21:31Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Construct Informative Triplet with Two-stage Hard-sample Generation [6.361348748202731]
本稿では, 有効正および負のサンプル生成器を用いてハードサンプルを生成する2段階合成フレームワークを提案する。
提案手法は,既存のハードサンプル生成アルゴリズムよりも優れた性能を実現する。
また,既存の三重項鉱業戦略を組み合わせたハードサンプル生成手法により,より深いメートル法学習性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-12-04T06:28:25Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。