論文の概要: Highly Efficient Test-Time Scaling for T2I Diffusion Models with Text Embedding Perturbation
- arxiv url: http://arxiv.org/abs/2512.03996v1
- Date: Wed, 03 Dec 2025 17:27:53 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:15:59.281294
- Title: Highly Efficient Test-Time Scaling for T2I Diffusion Models with Text Embedding Perturbation
- Title(参考訳): テキスト埋め込み摂動を用いたT2I拡散モデルの高能率テスト時間スケーリング
- Authors: Hang Xu, Linjiang Huang, Feng Zhao,
- Abstract要約: テストタイムスケーリング(TTS)は、ランダムサンプリングを増やし、ルールとメトリクスに基づいてサンプルを評価することで、より良い結果を達成することを目的としている。
本研究では,T2I拡散モデルにおけるランダム性の影響を解析し,テキスト埋め込み摂動によるTSのランダム性の新しい形式を探索する。
- 参考スコア(独自算出の注目度): 26.72622200307507
- License:
- Abstract: Test-time scaling (TTS) aims to achieve better results by increasing random sampling and evaluating samples based on rules and metrics. However, in text-to-image(T2I) diffusion models, most related works focus on search strategies and reward models, yet the impact of the stochastic characteristic of noise in T2I diffusion models on the method's performance remains unexplored. In this work, we analyze the effects of randomness in T2I diffusion models and explore a new format of randomness for TTS: text embedding perturbation, which couples with existing randomness like SDE-injected noise to enhance generative diversity and quality. We start with a frequency-domain analysis of these formats of randomness and their impact on generation, and find that these two randomness exhibit complementary behavior in the frequency domain: spatial noise favors low-frequency components (early steps), while text embedding perturbation enhances high-frequency details (later steps), thereby compensating for the potential limitations of spatial noise randomness in high-frequency manipulation. Concurrently, text embedding demonstrates varying levels of tolerance to perturbation across different dimensions of the generation process. Specifically, our method consists of two key designs: (1) Introducing step-based text embedding perturbation, combining frequency-guided noise schedules with spatial noise perturbation. (2) Adapting the perturbation intensity selectively based on their frequency-specific contributions to generation and tolerance to perturbation. Our approach can be seamlessly integrated into existing TTS methods and demonstrates significant improvements on multiple benchmarks with almost no additional computation. Code is available at \href{https://github.com/xuhang07/TEP-Diffusion}{https://github.com/xuhang07/TEP-Diffusion}.
- Abstract(参考訳): テストタイムスケーリング(TTS)は、ランダムサンプリングを増やし、ルールとメトリクスに基づいてサンプルを評価することで、より良い結果を達成することを目的としている。
しかし,テキスト・トゥ・イメージ(T2I)拡散モデルでは,ほとんどの研究が探索戦略や報酬モデルに焦点をあてているが,T2I拡散モデルにおける雑音の確率的特性が手法の性能に与える影響は未解明のままである。
本研究では、T2I拡散モデルにおけるランダム性の影響を分析し、TTSの新しいランダム性形式であるテキスト埋め込み摂動を探索する。
空間ノイズは低周波成分(初期段階)を好んでおり、テキスト埋め込み摂動は高周波細部(後期段階)を強化し、高周波操作における空間雑音ランダム性の潜在的な制限を補う。
同時に、テキスト埋め込みは、生成プロセスの異なる次元にわたる摂動に対する様々なレベルの耐性を示す。
具体的には,(1)ステップベースのテキスト埋め込み摂動を導入し,周波数誘導型ノイズスケジュールと空間雑音摂動を組み合わせた2つの鍵設計からなる。
2)摂動強度の周波数依存性と摂動耐性を選択的に適応させる。
提案手法は既存のTSメソッドとシームレスに統合することができ,追加の計算をほとんど行わずに,複数のベンチマークにおいて大幅な改善が示される。
コードは \href{https://github.com/xuhang07/TEP-Diffusion}{https://github.com/xuhang07/TEP-Diffusion} で公開されている。
関連論文リスト
- Beyond Randomness: Understand the Order of the Noise in Diffusion [60.3872274940353]
テキスト駆動型コンテンツ生成(T2C)拡散モデルでは、生成したコンテンツのセマンティックスは主にテキスト埋め込みとアテンションメカニズムの相互作用によるものである。
本稿では,モデル生成に対するランダムノイズの影響を包括的に分析する。
本稿では,T2C拡散モデルの初期ノイズを変調する,単純で効率的なトレーニング不要で汎用的な2段階の「セマンティックエミッション・インジェクション」プロセスを提案する。
論文 参考訳(メタデータ) (2025-11-11T02:12:38Z) - Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - Test-Time Scaling of Diffusion Models via Noise Trajectory Search [10.8507840358202]
我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。
EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
論文 参考訳(メタデータ) (2025-05-24T19:13:29Z) - Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration [53.63593099509471]
本稿では,既存のS2S-拡散モデルの限界を克服するために,スケジューラ・エクスロイタS2S-拡散パラダイムを提案する。
我々はメタ探索を用いて、各文の文脈化ノイズをスケジューリングするための追加スケジューラモデルを訓練する。
我々のエクスプローラーモデルであるS2S-拡散モデルでは、スケジューラモデルによってスケジュールされたノイズを利用して更新と生成を行う。
論文 参考訳(メタデータ) (2024-10-17T04:06:02Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。