論文の概要: Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation
- arxiv url: http://arxiv.org/abs/2602.11440v1
- Date: Wed, 11 Feb 2026 23:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.576755
- Title: Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation
- Title(参考訳): Ctrl&Shift:ビジュアルジェネレーションにおける高品質な幾何学的オブジェクト操作
- Authors: Penghui Ruan, Bojia Zi, Xianbiao Qi, Youze Huang, Rong Xiao, Pichao Wang, Jiannong Cao, Yuhui Shi,
- Abstract要約: Ctrl&Shiftは3次元表現を明示せずに幾何一貫性のあるオブジェクト操作を実現するためのエンドツーエンド拡散フレームワークである。
我々の重要な洞察は、操作を2つの段階に分解することであり、オブジェクトの除去と、明示的なカメラポーズ制御の下での参照誘導塗装、および両者を統合拡散プロセス内にエンコードすることである。
我々の知る限り、これは、明示的な3Dモデリングに頼ることなく、きめ細かい幾何学的制御とオブジェクト操作の現実世界の一般化を統一する最初のフレームワークである。
- 参考スコア(独自算出の注目度): 34.92056161129864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-level manipulation, relocating or reorienting objects in images or videos while preserving scene realism, is central to film post-production, AR, and creative editing. Yet existing methods struggle to jointly achieve three core goals: background preservation, geometric consistency under viewpoint shifts, and user-controllable transformations. Geometry-based approaches offer precise control but require explicit 3D reconstruction and generalize poorly; diffusion-based methods generalize better but lack fine-grained geometric control. We present Ctrl&Shift, an end-to-end diffusion framework to achieve geometry-consistent object manipulation without explicit 3D representations. Our key insight is to decompose manipulation into two stages, object removal and reference-guided inpainting under explicit camera pose control, and encode both within a unified diffusion process. To enable precise, disentangled control, we design a multi-task, multi-stage training strategy that separates background, identity, and pose signals across tasks. To improve generalization, we introduce a scalable real-world dataset construction pipeline that generates paired image and video samples with estimated relative camera poses. Extensive experiments demonstrate that Ctrl&Shift achieves state-of-the-art results in fidelity, viewpoint consistency, and controllability. To our knowledge, this is the first framework to unify fine-grained geometric control and real-world generalization for object manipulation, without relying on any explicit 3D modeling.
- Abstract(参考訳): シーンリアリズムを保ちながら、画像やビデオ内のオブジェクトを移動または再配置するオブジェクトレベルの操作は、ポストプロダクション、AR、クリエイティブな編集の中心である。
しかし、既存の手法は、背景保存、視点シフトによる幾何学的一貫性、ユーザ制御可能な変換の3つの目標を共同で達成するのに苦労している。
幾何に基づくアプローチは正確な制御を提供するが、明示的な3次元再構成が必要であり、拡散に基づく手法はより良く一般化するが、きめ細かい幾何学的制御は欠く。
Ctrl&Shiftは3次元表現を明示せずに幾何一貫性のあるオブジェクト操作を実現するためのエンドツーエンド拡散フレームワークである。
我々の重要な洞察は、操作を2つの段階に分解することであり、オブジェクトの除去と、明示的なカメラポーズ制御の下での参照誘導塗装、および両者を統合拡散プロセス内にエンコードすることである。
正確で不整合な制御を実現するため、タスク間の背景、アイデンティティ、ポーズを分離するマルチタスク・マルチステージトレーニング戦略を設計する。
一般化を改善するため、推定相対カメラのポーズでペア画像とビデオのサンプルを生成するスケーラブルな実世界のデータセット構築パイプラインを導入する。
大規模な実験により、Ctrl&Shiftは忠実さ、視点の整合性、制御性において最先端の結果を達成することが示された。
我々の知る限り、これは、明示的な3Dモデリングに頼ることなく、きめ細かい幾何学的制御とオブジェクト操作の現実世界の一般化を統一する最初のフレームワークである。
関連論文リスト
- GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion [46.97254555348757]
本稿では,テキスト・トゥ・イメージ(T2I)生成のための拡散型アプローチを提案する。
連続的かつインタラクティブな位置決めのためのフレームワーク(POCI-Diff)を導入する。
本手法は,個々のテキスト記述を特定の3次元境界ボックスに結合することで,オブジェクトごとのセマンティック制御を可能にする。
論文 参考訳(メタデータ) (2026-01-20T15:13:43Z) - Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine [83.0145525456509]
実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。
画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。
マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
論文 参考訳(メタデータ) (2025-11-17T18:57:39Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - FreeInsert: Personalized Object Insertion with Geometric and Style Control [26.088650452374726]
3次元幾何情報を利用して任意のシーンへのオブジェクト挿入をカスタマイズする学習自由フレームワークを提案する。
レンダリングされた画像は、幾何学的制御として機能し、拡散アダプタによって達成されたスタイルとコンテンツ制御とを結合する。
論文 参考訳(メタデータ) (2025-09-25T05:26:10Z) - A Controllable 3D Deepfake Generation Framework with Gaussian Splatting [6.969908558294805]
本稿では,3次元ガウススプラッティングに基づく新しい3次元ディープフェイク生成フレームワークを提案する。
完全に制御可能な3D空間において、現実的でアイデンティティを保った顔スワッピングと再現を可能にする。
提案手法は3次元モデリングとディープフェイク合成のギャップを埋め、シーン認識、制御可能、没入型視覚的偽造の新しい方向を可能にする。
論文 参考訳(メタデータ) (2025-09-15T06:34:17Z) - LACONIC: A 3D Layout Adapter for Controllable Image Creation [22.96293773013579]
誘導画像合成のための既存の生成アプローチは、画像やテキスト空間の2D制御に依存している。
本稿では,事前訓練されたテキスト・画像拡散モデルに接続可能な新しい条件付け手法,トレーニング方法,アダプタネットワークを提案する。
本手法は, カメラ制御, 明快な3次元空間におけるジオメトリの条件付け, シーンのコンテキスト全体について初めて記述する。
論文 参考訳(メタデータ) (2025-07-04T02:25:36Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。
私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文 参考訳(メタデータ) (2023-10-04T06:14:06Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator [51.89441403642665]
剛体物体の6次元ポーズ推定はコンピュータビジョンにおける長年の課題である。
近年、ディープラーニングの出現は、信頼できる6Dポーズを予測するための畳み込みニューラルネットワーク(CNN)の可能性を明らかにしている。
本稿では,完全学習型オブジェクトポーズ推定器を提案する。
論文 参考訳(メタデータ) (2021-02-24T09:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。