論文の概要: 3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2410.12669v1
- Date: Wed, 16 Oct 2024 15:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:07.686283
- Title: 3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation
- Title(参考訳): 3DIS: テキスト・画像生成のための深度駆動型疎結合インスタンス合成
- Authors: Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang,
- Abstract要約: MIG技術はSD2やSDXLのような最先端のモデルでは広く採用されていない。
Depth-Driven Decoupled Instance Synthesis (3DIS)を紹介する。
我々のフレームワークは、正確な深度レイアウトのためにカスタムアダプタを LDM3D に統合し、インスタンスレベルの属性レンダリングを強化するための微調整不要な手法を採用している。
- 参考スコア(独自算出の注目度): 30.241857090353864
- License:
- Abstract: The increasing demand for controllable outputs in text-to-image generation has spurred advancements in multi-instance generation (MIG), allowing users to define both instance layouts and attributes. However, unlike image-conditional generation methods such as ControlNet, MIG techniques have not been widely adopted in state-of-the-art models like SD2 and SDXL, primarily due to the challenge of building robust renderers that simultaneously handle instance positioning and attribute rendering. In this paper, we introduce Depth-Driven Decoupled Instance Synthesis (3DIS), a novel framework that decouples the MIG process into two stages: (i) generating a coarse scene depth map for accurate instance positioning and scene composition, and (ii) rendering fine-grained attributes using pre-trained ControlNet on any foundational model, without additional training. Our 3DIS framework integrates a custom adapter into LDM3D for precise depth-based layouts and employs a finetuning-free method for enhanced instance-level attribute rendering. Extensive experiments on COCO-Position and COCO-MIG benchmarks demonstrate that 3DIS significantly outperforms existing methods in both layout precision and attribute rendering. Notably, 3DIS offers seamless compatibility with diverse foundational models, providing a robust, adaptable solution for advanced multi-instance generation. The code is available at: https://github.com/limuloo/3DIS.
- Abstract(参考訳): テキスト・ツー・イメージ生成における制御可能な出力の需要の増加により、マルチインスタンス・ジェネレーション(MIG)の進歩が加速し、ユーザはインスタンスのレイアウトと属性の両方を定義できるようになった。
しかし、ControlNetのような画像条件生成手法とは異なり、MIG技術はSD2やSDXLのような最先端のモデルでは広く採用されていない。
本稿では、MIGプロセスを2段階に分離する新しいフレームワークであるDepth-Driven Decoupled Instance Synthesis (3DIS)を紹介する。
一 正確な事例位置及びシーン構成のための粗いシーン深度マップを作成すること。
(ii)任意の基礎モデル上で事前訓練されたControlNetを使用して、追加のトレーニングなしできめ細かい属性をレンダリングする。
我々の3DISフレームワークは、正確な深度に基づくレイアウトのためにカスタムアダプタを LDM3D に統合し、インスタンスレベルの属性レンダリングを強化するために、ファインタニングフリーな方法を採用している。
COCO-Position と COCO-MIG ベンチマークの大規模な実験により、3DIS はレイアウト精度と属性レンダリングの両方において既存の手法よりも大幅に優れていることが示された。
特に、3DISは多様な基礎モデルとのシームレスな互換性を提供し、高度なマルチインスタンス生成のための堅牢で適応可能なソリューションを提供する。
コードは、https://github.com/limuloo/3DIS.comで入手できる。
関連論文リスト
- ControLRM: Fast and Controllable 3D Generation via Large Reconstruction Model [36.34976357766257]
高速かつ制御可能な3D生成のためのエンドツーエンドフィードフォワードモデルであるControLRMを紹介する。
ControLRMは、2Dコンディションジェネレータ、コンディションエンコーディングトランス、トリプレーンデコーダトランスを備える。
条件訓練部では, トリプレーンデコーダをロックし, LRM内の数百万の3Dデータで事前訓練されたディープ・ロバストな符号化層を再利用する。
画像訓練部では, 3次元デコーダをアンロックして2次元表現と3次元表現の間に暗黙のアライメントを確立する。
論文 参考訳(メタデータ) (2024-10-12T16:47:20Z) - SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-16T10:17:28Z) - Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection [108.672972439282]
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,擬似ラベルを効率的に生成するためのDPGモジュールを特徴とする。
また,擬似ラベルの雑音深度監視による最適化競合を軽減するために,DGPモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-26T05:12:18Z) - AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation [88.50067783122559]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。
実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-16T16:49:59Z) - PSGformer: Enhancing 3D Point Cloud Instance Segmentation via Precise
Semantic Guidance [11.097083846498581]
PSGformerは、新しい3Dインスタンスセグメンテーションネットワークである。
3Dインスタンスセグメンテーションのパフォーマンスを高めるために、2つの重要な進歩が組み込まれている。
これは、mAPの点でScanNetv2の隠れテストセットで比較した最先端のメソッドを2.2%上回る。
論文 参考訳(メタデータ) (2023-07-15T04:45:37Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。