論文の概要: Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2509.26644v1
- Date: Tue, 30 Sep 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.661247
- Title: Stitch: Training-Free Position Control in Multimodal Diffusion Transformers
- Title(参考訳): スティッチ:多モード拡散変圧器の訓練自由位置制御
- Authors: Jessica Bader, Mateusz Pach, Maria A. Bravo, Serge Belongie, Zeynep Akata,
- Abstract要約: 近年,テキスト・ツー・イメージ(T2I)生成モデルが急速に進歩してきたが,空間的関係を捉えることは永続的な課題である。
自動生成バウンディングボックスを介して,外部位置制御をMMDiT(Multi-Modal Diffusion Transformer)に組み込む訓練不要なStitchを提案する。
対象とする注目ヘッドは、画像を完全に完成させることなく、世代中の個々のオブジェクトを分離し、切り離すために必要な情報をキャプチャする。
- 参考スコア(独自算出の注目度): 42.17131488826851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) generation models have advanced rapidly in recent years, but accurately capturing spatial relationships like "above" or "to the right of" poses a persistent challenge. Earlier methods improved spatial relationship following with external position control. However, as architectures evolved to enhance image quality, these techniques became incompatible with modern models. We propose Stitch, a training-free method for incorporating external position control into Multi-Modal Diffusion Transformers (MMDiT) via automatically-generated bounding boxes. Stitch produces images that are both spatially accurate and visually appealing by generating individual objects within designated bounding boxes and seamlessly stitching them together. We find that targeted attention heads capture the information necessary to isolate and cut out individual objects mid-generation, without needing to fully complete the image. We evaluate Stitch on PosEval, our benchmark for position-based T2I generation. Featuring five new tasks that extend the concept of Position beyond the basic GenEval task, PosEval demonstrates that even top models still have significant room for improvement in position-based generation. Tested on Qwen-Image, FLUX, and SD3.5, Stitch consistently enhances base models, even improving FLUX by 218% on GenEval's Position task and by 206% on PosEval. Stitch achieves state-of-the-art results with Qwen-Image on PosEval, improving over previous models by 54%, all accomplished while integrating position control into leading models training-free. Code is available at https://github.com/ExplainableML/Stitch.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルは近年急速に進歩しているが、"above"や"to the right"といった空間的関係を正確に捉えることは永続的な課題である。
従来の手法では外部位置制御による空間関係の改善があった。
しかし、アーキテクチャが進化して画質が向上するにつれて、これらの技術は現代のモデルと相容れないものになった。
自動生成バウンディングボックスを介して,外部位置制御をMMDiT(Multi-Modal Diffusion Transformer)に組み込む訓練不要なStitchを提案する。
Stitchは、指定されたバウンディングボックス内で個々のオブジェクトを生成し、それらをシームレスに縫合することで、空間的に正確かつ視覚的に魅力的な画像を生成する。
対象とする注目ヘッドは、画像を完全に完成させることなく、世代中の個々のオブジェクトを分離し、切り離すために必要な情報をキャプチャする。
位置ベースT2I 生成のベンチマークである PosEval 上で Stitch を評価する。
PosEvalは、基本的なGenEvalタスクを超えて、ポジションの概念を拡張する5つの新しいタスクを特徴としている。
Qwen-Image、FLUX、SD3.5でテストされたStitchは、ベースモデルを一貫して強化し、GenEvalの位置タスクではFLUXを218%改善し、PosEvalでは206%改善した。
Stitchは、PosEval上のQwen-Imageで最先端の結果を達成し、以前のモデルよりも54%改善した。
コードはhttps://github.com/ExplainableML/Stitchで入手できる。
関連論文リスト
- PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views [18.814209805277503]
スパース多視点画像から3次元ガウススプラッティングを行うための効率的なフィードフォワードフレームワークであるSPFSplatV2について述べる。
ドメイン内およびドメイン外の新規ビュー合成において、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-21T21:37:56Z) - Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation [32.190055780969466]
Stable-Poseは、粗い注目マスキング戦略を視覚変換器に導入する新しいアダプタモデルである。
我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。
Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
論文 参考訳(メタデータ) (2024-06-04T16:54:28Z) - DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。