論文の概要: Geometry-Editable and Appearance-Preserving Object Compositon
- arxiv url: http://arxiv.org/abs/2505.20914v1
- Date: Tue, 27 May 2025 09:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.531844
- Title: Geometry-Editable and Appearance-Preserving Object Compositon
- Title(参考訳): 幾何学編集可能・外観保存型オブジェクト合成装置
- Authors: Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen,
- Abstract要約: 汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
- 参考スコア(独自算出の注目度): 67.98806888489385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General object composition (GOC) aims to seamlessly integrate a target object into a background scene with desired geometric properties, while simultaneously preserving its fine-grained appearance details. Recent approaches derive semantic embeddings and integrate them into advanced diffusion models to enable geometry-editable generation. However, these highly compact embeddings encode only high-level semantic cues and inevitably discard fine-grained appearance details. We introduce a Disentangled Geometry-editable and Appearance-preserving Diffusion (DGAD) model that first leverages semantic embeddings to implicitly capture the desired geometric transformations and then employs a cross-attention retrieval mechanism to align fine-grained appearance features with the geometry-edited representation, facilitating both precise geometry editing and faithful appearance preservation in object composition. Specifically, DGAD builds on CLIP/DINO-derived and reference networks to extract semantic embeddings and appearance-preserving representations, which are then seamlessly integrated into the encoding and decoding pipelines in a disentangled manner. We first integrate the semantic embeddings into pre-trained diffusion models that exhibit strong spatial reasoning capabilities to implicitly capture object geometry, thereby facilitating flexible object manipulation and ensuring effective editability. Then, we design a dense cross-attention mechanism that leverages the implicitly learned object geometry to retrieve and spatially align appearance features with their corresponding regions, ensuring faithful appearance consistency. Extensive experiments on public benchmarks demonstrate the effectiveness of the proposed DGAD framework.
- Abstract(参考訳): 汎用オブジェクト合成(GOC)は、目的のオブジェクトを背景の背景にシームレスに統合し、その粒度の細かい外観を同時に保存することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
しかし、これらの高度にコンパクトな埋め込みは、高レベルのセマンティックキューのみをエンコードし、必然的にきめ細かな外観の詳細を捨てる。
本稿では,まず意味的埋め込みを活用して所望の幾何学的変換を暗黙的に捉えるDGADモデルを導入し,次に,精密な幾何学的編集とオブジェクト構成の忠実な外観保存の両立を図った。
具体的には、DGADはCLIP/DINO由来の参照ネットワーク上に構築され、セマンティック埋め込みと外観保存表現を抽出する。
まず,対象形状を暗黙的にとらえる強力な空間推論能力を示す事前学習拡散モデルにセマンティック埋め込みを組み込むことにより,柔軟なオブジェクト操作を容易にし,効率的な編集性を確保する。
そして、暗黙的に学習された物体形状を利用して、その外観特徴を対応する領域と空間的に整合させ、忠実な外観整合性を確保するための密接なクロスアテンション機構を設計する。
公開ベンチマークに関する大規模な実験は、提案したDGADフレームワークの有効性を実証している。
関連論文リスト
- ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints [13.2441524021269]
ShapeShiftはテキスト誘導による画像から画像への変換タスクであり、入力された剛体形状の集合を重複しない構成に再構成する必要がある。
重複が発生した場合に,最小限の意味的コヒーレントな調整を施す,コンテンツ対応の衝突解決機構を導入する。
本手法は,空間的関係がテキストのプロンプトをはっきりと具現化した解釈可能な構成を与える。
論文 参考訳(メタデータ) (2025-03-18T20:48:58Z) - JADE: Joint-aware Latent Diffusion for 3D Human Generative Modeling [62.77347895550087]
JADEは人体形状の変化を微粒化制御で学習する生成フレームワークである。
私たちの重要な洞察は、人体を骨格構造に分解する共同認識の潜伏表現です。
提案した分解条件下でのコヒーレントで可塑性な人体形状を生成するため,カスケードパイプラインも提案する。
論文 参考訳(メタデータ) (2024-12-29T14:18:35Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Deep Deformable Models: Learning 3D Shape Abstractions with Part
Consistency [37.28811220509584]
最近の手法では、ターゲットに合う単純なプリミティブのセットを使ってオブジェクトの形状を表現することを学ぶ。
これらのプリミティブは必ずしも実際の部分に対応するわけではないし、意味解釈の幾何学的柔軟性に欠ける。
本稿では,高精度な形状抽象化のための有能で効率的なプリミティブ記述子について検討する。
論文 参考訳(メタデータ) (2023-09-02T23:18:28Z) - Learning to Complete Object Shapes for Object-level Mapping in Dynamic
Scenes [30.500198859451434]
本研究では,動的シーンにおけるオブジェクトの分割,追跡,再構築を同時に行うオブジェクトレベルのマッピングシステムを提案する。
さらに、深度入力とカテゴリレベルの前の形状からの再構成を条件にすることで、完全なジオメトリを予測し、完成させることができる。
実世界の合成シーケンスと実世界のシーケンスの両方で定量的に定性的にテストすることで,その有効性を評価する。
論文 参考訳(メタデータ) (2022-08-09T22:56:33Z) - Disentangling Geometric Deformation Spaces in Generative Latent Shape
Models [5.582957809895198]
3Dオブジェクトの完全な表現には、解釈可能な方法で変形の空間を特徴づける必要がある。
本研究では,物体形状の空間を剛性方向,非剛性ポーズ,内在的な形状に分解する3次元形状の不整合の事前生成モデルを改善する。
得られたモデルは生の3D形状からトレーニングできる。
論文 参考訳(メタデータ) (2021-02-27T06:54:31Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。