論文の概要: TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.08928v1
- Date: Mon, 09 Mar 2026 20:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.825571
- Title: TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers
- Title(参考訳): TIDE:拡散変圧器のステップアウェア温度制御によるテキストインフォーム動的外挿
- Authors: Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang,
- Abstract要約: ディフュージョントランスフォーマー(Diffusion Transformer, DiT)は、トレーニング解像度と比較して高解像度の画像を生成する際の課題である。
我々は、任意の解像度とアスペクト比で、追加のサンプリングオーバーヘッドを伴わずに生成できる、トレーニングフリーのテキスト・トゥ・イメージ(T2I)外挿法であるTIDEを提案する。
- 参考スコア(独自算出の注目度): 1.2927626330863309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT) faces challenges when generating images with higher resolution compared at training resolution, causing especially structural degradation due to attention dilution. Previous approaches attempt to mitigate this by sharpening attention distributions, but fail to preserve fine-grained semantic details and introduce obvious artifacts. In this work, we analyze the characteristics of DiTs and propose TIDE, a training-free text-to-image (T2I) extrapolation method that enables generation with arbitrary resolution and aspect ratio without additional sampling overhead. We identify the core factor for prompt information loss, and introduce a text anchoring mechanism to correct the imbalance between text and image tokens. To further eliminate artifacts, we design a dynamic temperature control mechanism that leverages the pattern of spectral progression in the diffusion process. Extensive evaluations demonstrate that TIDE delivers high-quality resolution extrapolation capability and integrates seamlessly with existing state-of-the-art methods.
- Abstract(参考訳): 拡散変換器(DiT)は、トレーニングの解像度よりも高解像度の画像を生成する際の課題に直面し、特に注意の希釈による構造劣化を引き起こす。
従来のアプローチでは、注意分布を鋭くすることでこれを緩和しようとするが、細粒度のセマンティックな詳細を保存できず、明らかなアーティファクトを導入できなかった。
本研究では,DiTの特性を解析し,任意の解像度とアスペクト比を生成するためのトレーニング不要なテキスト・トゥ・イメージ(T2I)外挿法であるTIDEを提案する。
情報損失を促すための中核要因を同定し,テキストと画像トークンの不均衡を補正するテキストアンカー機構を導入する。
さらに, 拡散過程におけるスペクトル進行パターンを利用した動的温度制御機構を設計する。
大規模な評価は、TIDEが高品質な分解能外挿機能を提供し、既存の最先端の手法とシームレスに統合できることを示します。
関連論文リスト
- Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Accurate Latent Inversion for Generative Image Steganography via Rectified Flow [5.404219831398271]
拡散モデルに基づくステレオグラフィーは、高品質な画像を生成し、強靭性を示す能力によって注目されている。
我々は,新しい画像ステガノグラフィー手法である textbfRF-Stego を提案する。
RF-Stegoは, 抽出精度, 画質, 堅牢性, セキュリティ, 生成効率において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-01T08:46:32Z) - InpDiffusion: Image Inpainting Localization via Conditional Diffusion Models [10.213390634031049]
現在のIIL法は2つの大きな課題に直面している。
拡散モデルを用いた条件付きマスク生成タスクとしてIILを扱う新しいパラダイムを提案する。
我々の手法であるInpDiffusionは、画像意味条件の統合によって強化された復調過程を利用して、予測を段階的に洗練する。
論文 参考訳(メタデータ) (2025-01-06T07:32:12Z) - Training-Free Layout-to-Image Generation with Marginal Attention Constraints [73.55660250459132]
トレーニング不要なレイアウト・トゥ・イメージ(L2I)アプローチを提案する。
具体的には、テキスト・ビジュアル・クロスアテンション・フィーチャーマップを用いて、生成された画像のレイアウトと提供された命令の不整合を定量化する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - Image Inpainting via Tractable Steering of Diffusion Models [48.16994134964729]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。