論文の概要: InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion
- arxiv url: http://arxiv.org/abs/2512.17504v1
- Date: Fri, 19 Dec 2025 12:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.374868
- Title: InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion
- Title(参考訳): InsertAnywhere:リアルなビデオオブジェクト挿入のための4次元シーン形状と拡散モデルの作成
- Authors: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo,
- Abstract要約: InsertAnywhereは、幾何学的に一貫したオブジェクト配置と外観に忠実なビデオ合成を実現する新しいVOIフレームワークである。
本手法は,シーン形状を再構成する4次元マスク生成モジュールから始める。
我々は拡散に基づく映像生成モデルを拡張し、挿入された物体とその周囲の局所的変動を共同で合成する。
- 参考スコア(独自算出の注目度): 44.16061577550766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.
- Abstract(参考訳): 拡散型ビデオ生成の最近の進歩は、制御可能なビデオ編集の新たな可能性を開いたが、4Dシーンの理解が限られ、オクルージョンや照明効果が不十分なため、現実的なビデオオブジェクト挿入(VOI)は難しいままである。
InsertAnywhereは、幾何学的に一貫したオブジェクト配置と外観に忠実なビデオ合成を実現する新しいVOIフレームワークである。
本手法は,シーン形状を再構成し,時間的コヒーレンスとオクルージョンの整合性を保ちながら,フレーム間のユーザ指定オブジェクト配置を伝搬する4次元マスク生成モジュールから始める。
この空間的基盤を基盤として、拡散に基づく映像生成モデルを拡張し、挿入された物体とその周囲の照明や陰影などの局所的変動を共同で合成する。
教師付きトレーニングを実現するために、ROSE++、ROSEオブジェクト除去データセットをオブジェクト除去ビデオのトリプレット、オブジェクト現像ビデオ、VLM生成参照画像に変換することで構築された照明対応合成データセットを導入する。
大規模な実験を通じて、我々のフレームワークは、様々な現実世界のシナリオにまたがって、幾何学的に可視かつ視覚的に一貫性のあるオブジェクト挿入を生成し、既存の研究や商業モデルよりも著しく優れていることを実証した。
関連論文リスト
- Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [41.904066758259624]
ビデオカメラトラジェクトリ編集のための新しいフレームワークであるVid-CamEditを紹介する。
我々のアプローチは、時間的に一貫した幾何を推定する2つのステップと、この幾何学によって導かれる生成的レンダリングからなる。
論文 参考訳(メタデータ) (2025-06-16T17:02:47Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。