論文の概要: Dynamic Frequency Modulation for Controllable Text-driven Image Generation
- arxiv url: http://arxiv.org/abs/2602.10662v1
- Date: Wed, 11 Feb 2026 09:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.617483
- Title: Dynamic Frequency Modulation for Controllable Text-driven Image Generation
- Title(参考訳): 制御可能なテキスト駆動画像生成のための動的周波数変調
- Authors: Tiandong Shi, Ling Zhao, Ji Qi, Jiayi Ma, Chengli Peng,
- Abstract要約: 期待される意味調整を達成するために原文のプロンプトを変更すると、意図しないグローバルな構造が変化する。
本稿では,構造構造の階層的出現に対する雑音性潜伏変数の周波数スペクトルの影響を解析する。
動的減衰を伴う周波数依存重み付け関数を用いた学習自由度変調法を提案する。
- 参考スコア(独自算出の注目度): 26.61127727590205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of text-guided diffusion models has established a new image generation paradigm driven by the iterative refinement of text prompts. However, modifying the original text prompt to achieve the expected semantic adjustments often results in unintended global structure changes that disrupt user intent. Existing methods rely on empirical feature map selection for intervention, whose performance heavily depends on appropriate selection, leading to suboptimal stability. This paper tries to solve the aforementioned problem from a frequency perspective and analyzes the impact of the frequency spectrum of noisy latent variables on the hierarchical emergence of the structure framework and fine-grained textures during the generation process. We find that lower-frequency components are primarily responsible for establishing the structure framework in the early generation stage. Their influence diminishes over time, giving way to higher-frequency components that synthesize fine-grained textures. In light of this, we propose a training-free frequency modulation method utilizing a frequency-dependent weighting function with dynamic decay. This method maintains the structure framework consistency while permitting targeted semantic modifications. By directly manipulating the noisy latent variable, the proposed method avoids the empirical selection of internal feature maps. Extensive experiments demonstrate that the proposed method significantly outperforms current state-of-the-art methods, achieving an effective balance between preserving structure and enabling semantic updates.
- Abstract(参考訳): テキスト誘導拡散モデルの成功により、テキストプロンプトの反復的洗練による新たな画像生成パラダイムが確立された。
しかし、期待されるセマンティックな調整を実現するために原文のプロンプトを変更すると、ユーザ意図を損なう意図しないグローバルな構造変化が発生することが多い。
既存の手法は、介入のための経験的特徴マップの選択に依存しており、その性能は適切な選択に大きく依存しており、最適以下の安定性をもたらす。
本稿では、上記の問題を周波数の観点から解き、生成過程における構造フレームワークの階層的出現ときめ細かなテクスチャに対する雑音の潜伏変数の周波数スペクトルの影響を解析する。
我々は、低周波成分が、初期における構造フレームワークの確立に主に責任があることを見出した。
その影響は時間が経つにつれて減少し、微細なテクスチャを合成する高周波成分に道を譲る。
そこで本研究では,動的減衰を伴う周波数依存重み付け関数を用いた学習自由度変調法を提案する。
本手法は, 目的のセマンティックな変更を許容しながら, 構造フレームワークの一貫性を維持する。
雑音のある潜在変数を直接操作することにより、内部特徴写像の実験的選択を避けることができる。
大規模な実験により,提案手法は,保存構造と意味的更新の効果的なバランスを保ちながら,最先端の手法を著しく上回ることを示した。
関連論文リスト
- Iterative Inference-time Scaling with Adaptive Frequency Steering for Image Super-Resolution [75.3690742776891]
適応周波数ステアリング(IAFS)を用いた反復拡散推論時間スケーリングを提案する。
IAFSは、構造的偏差の反復的補正によって生成した画像を徐々に精細化することで、知覚品質と構造的忠実性のバランスをとるという課題に対処する。
実験の結果、IAFSは知覚と忠実性の対立を効果的に解決し、知覚の細部と構造的精度を一貫して改善し、既存の推論時間スケーリング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-12-29T15:09:20Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - WavefrontDiffusion: Dynamic Decoding Schedule or Improved Reasoning [39.57157800995735]
本稿では,アクティブトークンのウェーブフロントを最終位置から外へ拡張する動的デコード手法であるWavefrontDiffusionを提案する。
推論とコード生成の4つのベンチマークで、WavefrontDiffusionは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-22T07:33:00Z) - Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-05-27T17:54:24Z) - Latent Convergence Modulation in Large Language Models: A Novel Approach to Iterative Contextual Realignment [0.0]
隠れ状態遷移を制御する構造変調機構が導入された。
格子調整は、パープレキシティ変動、エントロピー分散、および語彙不安定の低減に寄与した。
論文 参考訳(メタデータ) (2025-02-10T09:46:33Z) - Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [19.109259539368]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。