論文の概要: GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
- arxiv url: http://arxiv.org/abs/2410.20474v2
- Date: Fri, 01 Nov 2024 04:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 21:01:19.265677
- Title: GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
- Title(参考訳): GrounDiT:ノイズパッチ移植による接地拡散変換器
- Authors: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung,
- Abstract要約: 拡散変換器(DiT)を用いたテキスト・画像生成のための訓練不要な空間接地手法であるGrounDiTを紹介する。
我々はTransformerアーキテクチャの柔軟性を活用し、DiTが各バウンディングボックスに対応するノイズの多いパッチを生成できることを実証する。
提案手法は,意味的共有(semantic sharing)と呼ぶDiTの興味深い性質に基づいている。
- 参考スコア(独自算出の注目度): 11.517082612850443
- License:
- Abstract: We introduce GrounDiT, a novel training-free spatial grounding technique for text-to-image generation using Diffusion Transformers (DiT). Spatial grounding with bounding boxes has gained attention for its simplicity and versatility, allowing for enhanced user control in image generation. However, prior training-free approaches often rely on updating the noisy image during the reverse diffusion process via backpropagation from custom loss functions, which frequently struggle to provide precise control over individual bounding boxes. In this work, we leverage the flexibility of the Transformer architecture, demonstrating that DiT can generate noisy patches corresponding to each bounding box, fully encoding the target object and allowing for fine-grained control over each region. Our approach builds on an intriguing property of DiT, which we refer to as semantic sharing. Due to semantic sharing, when a smaller patch is jointly denoised alongside a generatable-size image, the two become semantic clones. Each patch is denoised in its own branch of the generation process and then transplanted into the corresponding region of the original noisy image at each timestep, resulting in robust spatial grounding for each bounding box. In our experiments on the HRS and DrawBench benchmarks, we achieve state-of-the-art performance compared to previous training-free approaches.
- Abstract(参考訳): 本稿では,Diffusion Transformers (DiT) を用いたテキスト・画像生成のための新しいトレーニング不要な空間グラウンド技術であるGrounDiTを紹介する。
境界ボックスによる空間的接地は、その単純さと汎用性から注目を集めており、画像生成におけるユーザ制御の強化を可能にしている。
しかしながら、事前のトレーニング不要なアプローチは、カスタム損失関数のバックプロパゲーションを通じて、逆拡散過程におけるノイズ画像の更新に依存することが多く、個々のバウンディングボックスを正確に制御するのにしばしば苦労する。
本研究では、Transformerアーキテクチャの柔軟性を活用し、DiTが各バウンディングボックスに対応するノイズパッチを生成し、対象オブジェクトを完全にエンコードし、各領域のきめ細かい制御を可能にすることを示す。
提案手法は,意味的共有(semantic sharing)と呼ぶDiTの興味深い性質に基づいている。
セマンティック・シェアリングにより、小さなパッチがジェネラブルサイズの画像とともに共同で識別されると、両者はセマンティック・クローンとなる。
各パッチは、生成プロセスの独自のブランチで復調され、各タイムステップで元のノイズ画像の対応する領域に移植され、各バウンディングボックスに対して堅牢な空間接地となる。
HRSとDrawBenchベンチマークの実験では、従来のトレーニング不要の手法と比較して最先端のパフォーマンスを実現している。
関連論文リスト
- CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks [10.622511683372815]
我々は,畳み込みとトランスフォーマーのハイブリッドニューラルネットワークを用いて,非常にノイズの多い画像に対して,頑健で高速な境界検出手法であるCT-Boundを提案する。
局所的な検出では、各画像パッチの境界構造を予測するために畳み込みアーキテクチャを使用する。
次に、フィードフォワードトランスフォーマーアーキテクチャを用いて、各パッチの境界構造をグローバルに洗練し、エッジマップとスムーズなカラーマップを同時に生成する。
論文 参考訳(メタデータ) (2024-03-25T07:22:22Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - TWIST-GAN: Towards Wavelet Transform and Transferred GAN for
Spatio-Temporal Single Image Super Resolution [4.622977798361014]
単一画像スーパーレゾリューション(sisr)は、空間解像度の低いリモートセンシング画像から、微細な空間解像度を持つ高解像度画像を生成する。
深層学習とGAN(Generative Adversarial Network)は、単一画像超解像(SISR)の課題を突破した。
論文 参考訳(メタデータ) (2021-04-20T22:12:38Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。