論文の概要: Drag4D: Align Your Motion with Text-Driven 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2509.21888v1
- Date: Fri, 26 Sep 2025 05:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.198462
- Title: Drag4D: Align Your Motion with Text-Driven 3D Scene Generation
- Title(参考訳): Drag4D:テキスト駆動の3Dシーンで動きを調整
- Authors: Minjun Kang, Inkyu Shin, Taeyeop Lee, In So Kweon, Kuk-Jin Yoon,
- Abstract要約: Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。
このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
- 参考スコア(独自算出の注目度): 77.79131321983677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Drag4D, an interactive framework that integrates object motion control within text-driven 3D scene generation. This framework enables users to define 3D trajectories for the 3D objects generated from a single image, seamlessly integrating them into a high-quality 3D background. Our Drag4D pipeline consists of three stages. First, we enhance text-to-3D background generation by applying 2D Gaussian Splatting with panoramic images and inpainted novel views, resulting in dense and visually complete 3D reconstructions. In the second stage, given a reference image of the target object, we introduce a 3D copy-and-paste approach: the target instance is extracted in a full 3D mesh using an off-the-shelf image-to-3D model and seamlessly composited into the generated 3D scene. The object mesh is then positioned within the 3D scene via our physics-aware object position learning, ensuring precise spatial alignment. Lastly, the spatially aligned object is temporally animated along a user-defined 3D trajectory. To mitigate motion hallucination and ensure view-consistent temporal alignment, we develop a part-augmented, motion-conditioned video diffusion model that processes multiview image pairs together with their projected 2D trajectories. We demonstrate the effectiveness of our unified architecture through evaluations at each stage and in the final results, showcasing the harmonized alignment of user-controlled object motion within a high-quality 3D background.
- Abstract(参考訳): Drag4Dはテキスト駆動3Dシーン生成にオブジェクトの動き制御を統合する対話型フレームワークである。
このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
私たちのDrag4Dパイプラインは3つのステージで構成されています。
まず,パノラマ画像を用いた2次元ガウス・スプラッティングと,3次元の立体視を再現し,テキストから3次元の背景画像を生成する。
第2段階では,対象オブジェクトの参照画像が与えられた場合,対象インスタンスをオフザシェルフ画像から3Dモデルを用いてフル3Dメッシュで抽出し,生成した3Dシーンにシームレスに合成する,3Dコピー・アンド・ペーストアプローチを導入する。
物体メッシュは、物理を意識した物体位置学習によって3Dシーン内に位置決めされ、正確な空間アライメントが保証される。
最後に、空間的に整列したオブジェクトを、ユーザが定義した3次元軌跡に沿って時間的にアニメーションする。
動作幻覚を緩和し、視野に一貫性のある時間的アライメントを確保するため、投影された2次元軌跡とともに多視点画像ペアを処理する部分拡張型モーションコンディショニング・ビデオ拡散モデルを開発した。
高品質な3次元背景下でのユーザ制御対象運動の調和したアライメントを示すため,各段階の評価と最終結果による統合アーキテクチャの有効性を実証する。
関連論文リスト
- Constructing a 3D Town from a Single Image [23.231661811526955]
3DTownは、単一のトップダウンビューからリアルで一貫性のある3Dシーンを合成するために設計された、トレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
以上の結果から,1枚の画像から高品質な3Dタウンジェネレーションが実現可能であることを示す。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。