論文の概要: On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.28762v1
- Date: Mon, 30 Mar 2026 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.558466
- Title: On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers
- Title(参考訳): 拡散変圧器のリッチ多様性のためのコンテキスト空間におけるオンザフライ反発
- Authors: Omer Dahary, Benaya Koren, Daniel Garibi, Daniel Cohen-Or,
- Abstract要約: 文脈空間における反発は、視覚的忠実さや意味的忠実さを犠牲にすることなく、より豊かな多様性をもたらす。
以上の結果から,視覚的忠実さやセマンティック・アテンデンスを犠牲にすることなく,文脈空間の反発により多様性が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 45.58775624703937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of variety, converging on a narrow set of visual solutions for any given prompt. This typicality bias presents a challenge for creative applications that require a wide range of generative outcomes. We identify a fundamental trade-off in current approaches to diversity: modifying model inputs requires costly optimization to incorporate feedback from the generative path. In contrast, acting on spatially-committed intermediate latents tends to disrupt the forming visual structure, leading to artifacts. In this work, we propose to apply repulsion in the Contextual Space as a novel framework for achieving rich diversity in Diffusion Transformers. By intervening in the multimodal attention channels, we apply on-the-fly repulsion during the transformer's forward pass, injecting the intervention between blocks where text conditioning is enriched with emergent image structure. This allows for redirecting the guidance trajectory after it is structurally informed but before the composition is fixed. Our results demonstrate that repulsion in the Contextual Space produces significantly richer diversity without sacrificing visual fidelity or semantic adherence. Furthermore, our method is uniquely efficient, imposing a small computational overhead while remaining effective even in modern "Turbo" and distilled models where traditional trajectory-based interventions typically fail.
- Abstract(参考訳): 現代のテキスト・ツー・イメージ(T2I)拡散モデルは目覚ましいセマンティックアライメントを達成しているが、しばしば多様性の著しい欠如に悩まされ、任意のプロンプトに対して限られたビジュアル・ソリューションに収束する。
この典型的なバイアスは、幅広い生成結果を必要とするクリエイティブなアプリケーションにとっての課題である。
モデル入力を変更するには、生成経路からのフィードバックを組み込むのに、コストのかかる最適化が必要です。
対照的に、空間的に制限された中間潜伏剤に作用すると、形成する視覚構造が破壊され、人工物に繋がる傾向にある。
本研究では,拡散変換器の豊富な多様性を実現するための新しいフレームワークとして,文脈空間における反発の適用を提案する。
マルチモーダルアテンションチャネルを介在させることにより、トランスフォーマーのフォワードパス中にオンザフライの反発を適用し、テキストコンディショニングが創発的画像構造に富むブロック間の干渉を注入する。
これにより、構造的な情報を得た後でも、構成が固定される前に誘導軌道をリダイレクトすることができる。
以上の結果から,視覚的忠実さやセマンティック・アテンデンスを犠牲にすることなく,文脈空間の反発により多様性が著しく向上することが示唆された。
さらに,本手法は,従来のトラジェクトリに基づく介入が一般的に失敗する「トゥルボ」や蒸留モデルにおいても,計算オーバーヘッドを小さく抑えながら,一意に効率的である。
関連論文リスト
- Latent Bias Alignment for High-Fidelity Diffusion Inversion in Real-World Image Reconstruction and Manipulation [25.312675775144154]
テキスト間の拡散モデルは、テキストプロンプトによって導かれる高品質な画像を生成することができる。
シードノイズから実世界の画像を生成または近似するために使用できるか?
拡散反転問題は、ブリッジング拡散モデルと実世界のシナリオのためのビルディングブロックとして機能する。
論文 参考訳(メタデータ) (2026-03-25T03:44:21Z) - Scaling Dense Event-Stream Pretraining from Visual Foundation Models [112.44243079477137]
我々は,視覚基礎モデル(VFM)を蒸留して,イベント表現の境界を大規模に推し進める,新しい自己教師型事前学習手法をローンチする。
我々は、クロスモーダルアライメントを増幅するために、広範に同期された画像イベントコレクションをキュレートする。
VFMによって提供されるセマンティックな構造にアライメントの目的を拡張し、より広い受容領域とより強い監督力を示す。
論文 参考訳(メタデータ) (2026-03-04T12:06:09Z) - Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge [59.247871132422006]
逆拡散法と拡散反転法は、未ペア画像から画像への変換を先進的に進めているが、それぞれが鍵となる制限に直面している。
本稿では,外部意味を拡散ブリッジモデルに統合する汎用フレームワークであるSelf-Supervised Semantic Bridge (SSB)を提案する。
我々のキーとなる考え方は、自己教師付き視覚エンコーダを活用して、外観変化に不変な表現を学習するが、幾何学的構造を捉えることである。
論文 参考訳(メタデータ) (2026-02-18T18:05:00Z) - Rectifying Latent Space for Generative Single-Image Reflection Removal [16.341477336909765]
単一画像の除去は、既存の手法が崩壊した領域の構成を推論するのに苦労する、非常に不適切な問題である。
この研究は、編集目的の潜在拡散モデルを再設計し、高度に曖昧で層状な画像入力を効果的に知覚し、処理する。
論文 参考訳(メタデータ) (2025-12-06T09:16:14Z) - DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models [23.12099227251494]
テスト時にテキスト条件付き視覚自己回帰モデル(VAR)の多様性を高めるフレームワークであるDiverse VARを紹介する。
Varモデルは、画像生成のための拡散とフローモデルに対する強力な競争相手として現れている。
Varモデルは多様性の限界に悩まされ、単純なプロンプトであってもほとんど同じ画像を生成する。
論文 参考訳(メタデータ) (2025-11-26T14:06:52Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Fine-grained Appearance Transfer with Diffusion Models [23.29713777525402]
画像から画像への変換(I2I)は、構造的コヒーレンスを維持しながら、画像間の視覚的外観を変化させようとしている。
本稿では, セマンティックマッチング, 外観伝達, 潜時偏差の様々な側面を統合することで, これらの課題を克服する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T04:00:04Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。