Fugu-MT 論文翻訳(概要): GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

論文の概要: GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

arxiv url: http://arxiv.org/abs/2410.20474v1
Date: Sun, 27 Oct 2024 15:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.001066
Title: GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
Title（参考訳）: GrounDiT:ノイズパッチ移植による接地拡散変換器
Authors: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung,
Abstract要約: 拡散変換器(DiT)を用いたテキスト・画像生成のための新しいトレーニング不要な空間接地手法を提案する。 DiTは、各バウンディングボックスに対応するノイズの多いパッチを生成し、ターゲットオブジェクトを完全にエンコードし、各領域のきめ細かい制御を可能にする。提案手法は,意味的共有(semantic sharing)と呼ぶDiTの興味深い性質に基づいている。
参考スコア（独自算出の注目度）: 11.517082612850443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a novel training-free spatial grounding technique for text-to-image generation using Diffusion Transformers (DiT). Spatial grounding with bounding boxes has gained attention for its simplicity and versatility, allowing for enhanced user control in image generation. However, prior training-free approaches often rely on updating the noisy image during the reverse diffusion process via backpropagation from custom loss functions, which frequently struggle to provide precise control over individual bounding boxes. In this work, we leverage the flexibility of the Transformer architecture, demonstrating that DiT can generate noisy patches corresponding to each bounding box, fully encoding the target object and allowing for fine-grained control over each region. Our approach builds on an intriguing property of DiT, which we refer to as semantic sharing. Due to semantic sharing, when a smaller patch is jointly denoised alongside a generatable-size image, the two become "semantic clones". Each patch is denoised in its own branch of the generation process and then transplanted into the corresponding region of the original noisy image at each timestep, resulting in robust spatial grounding for each bounding box. In our experiments on the HRS and DrawBench benchmarks, we achieve state-of-the-art performance compared to previous training-free spatial grounding approaches.
Abstract（参考訳）: 本研究では,Diffusion Transformers (DiT) を用いたテキスト・画像生成のための新しい訓練自由空間グラウンド手法を提案する。境界ボックスによる空間的接地は、その単純さと汎用性から注目を集めており、画像生成におけるユーザ制御の強化を可能にしている。しかしながら、事前のトレーニング不要なアプローチは、カスタム損失関数のバックプロパゲーションを通じて、逆拡散過程におけるノイズ画像の更新に依存することが多く、個々のバウンディングボックスを正確に制御するのにしばしば苦労する。本研究では、Transformerアーキテクチャの柔軟性を活用し、DiTが各バウンディングボックスに対応するノイズパッチを生成し、対象オブジェクトを完全にエンコードし、各領域のきめ細かい制御を可能にすることを示す。提案手法は,意味的共有(semantic sharing)と呼ぶDiTの興味深い性質に基づいている。セマンティック・シェアリングにより、小さなパッチがジェネラブルサイズの画像とともに共同で識別されると、2つのパッチは「セマンティック・クローン」となる。各パッチは、生成プロセスの独自のブランチで復調され、各タイミングで元のノイズ画像の対応する領域に移植され、各バウンディングボックスに対して堅牢な空間グラウンドが生じる。 HRSとDrawBenchベンチマークの実験では、従来のトレーニング不要空間接地手法と比較して最先端の性能を実現している。

関連論文リスト

Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文参考訳（メタデータ） (2025-07-31T07:36:00Z)
Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文参考訳（メタデータ） (2025-05-18T05:09:47Z)
CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation [11.170848285659572]
量子化埋め込みを用いたセグメンテーションマスクのオートエンコーダ精度は連続数値埋め込みよりも8%低い。セマンティックセグメンテーションのための連続評価組込みフレームワークを提案する。提案手法では,細粒度のセマンティックな詳細を保存しながら,離散的な潜在表現の必要性を排除している。
論文参考訳（メタデータ） (2025-03-19T18:06:54Z)
Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency [29.083402085790016]
本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2024-10-08T13:26:32Z)
CT-Bound: Robust Boundary Detection From Noisy Images Via Hybrid Convolution and Transformer Neural Networks [10.622511683372815]
我々は,畳み込みとトランスフォーマーのハイブリッドニューラルネットワークを用いて,非常にノイズの多い画像に対して,頑健で高速な境界検出手法であるCT-Boundを提案する。局所的な検出では、各画像パッチの境界構造を予測するために畳み込みアーキテクチャを使用する。次に、フィードフォワードトランスフォーマーアーキテクチャを用いて、各パッチの境界構造をグローバルに洗練し、エッジマップとスムーズなカラーマップを同時に生成する。
論文参考訳（メタデータ） (2024-03-25T07:22:22Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。 ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文参考訳（メタデータ） (2022-10-04T07:35:01Z)
ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文参考訳（メタデータ） (2021-05-28T08:53:54Z)
TWIST-GAN: Towards Wavelet Transform and Transferred GAN for Spatio-Temporal Single Image Super Resolution [4.622977798361014]
単一画像スーパーレゾリューション(sisr)は、空間解像度の低いリモートセンシング画像から、微細な空間解像度を持つ高解像度画像を生成する。深層学習とGAN(Generative Adversarial Network)は、単一画像超解像(SISR)の課題を突破した。
論文参考訳（メタデータ） (2021-04-20T22:12:38Z)
TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文参考訳（メタデータ） (2021-04-02T01:42:01Z)
Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文参考訳（メタデータ） (2020-06-23T19:52:23Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。