論文の概要: BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
- arxiv url: http://arxiv.org/abs/2506.17450v1
- Date: Fri, 20 Jun 2025 19:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.422293
- Title: BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
- Title(参考訳): BlenderFusion: ビジュアル編集と生成合成を3Dで行う
- Authors: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo,
- Abstract要約: 我々は、オブジェクト、カメラ、背景を再コンパイルすることで、新しいシーンを合成する生成的視覚合成フレームワークであるBlenderFusionを紹介する。
i)視覚入力を編集可能な3Dエンティティ(レイヤ)に分割・変換し、(ii)3Dグラウンド制御(編集)でブレンダーで編集し、(iii)生成合成装置(合成)を用いてコヒーレントなシーンに融合する。
- 参考スコア(独自算出の注目度): 39.18857645517109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BlenderFusion, a generative visual compositing framework that synthesizes new scenes by recomposing objects, camera, and background. It follows a layering-editing-compositing pipeline: (i) segmenting and converting visual inputs into editable 3D entities (layering), (ii) editing them in Blender with 3D-grounded control (editing), and (iii) fusing them into a coherent scene using a generative compositor (compositing). Our generative compositor extends a pre-trained diffusion model to process both the original (source) and edited (target) scenes in parallel. It is fine-tuned on video frames with two key training strategies: (i) source masking, enabling flexible modifications like background replacement; (ii) simulated object jittering, facilitating disentangled control over objects and camera. BlenderFusion significantly outperforms prior methods in complex compositional scene editing tasks.
- Abstract(参考訳): 我々は、オブジェクト、カメラ、背景を再コンパイルすることで、新しいシーンを合成する生成的視覚合成フレームワークであるBlenderFusionを紹介する。
階層化編集合成パイプラインに従っている。
一 視覚入力を編集可能な3Dエンティティ(レイヤ)に分割し、変換すること。
(二)3Dグラウンドコントロール(編集)でブレンダーで編集し、
三 合成合成装置(合成装置)を用いて整合的な場面に融合すること。
生成コンプレクタは、トレーニング済みの拡散モデルを拡張して、元の(ソース)シーンと編集された(ターゲット)シーンの両方を並列に処理する。
2つの重要なトレーニング戦略を備えたビデオフレームに微調整されている。
(i)背景交換のような柔軟な変更を可能にするソースマスキング
(II) オブジェクトとカメラのアンタングル制御を容易にするオブジェクトジッタリングのシミュレーション。
BlenderFusionは複雑な合成シーン編集タスクにおいて、従来の手法よりも大幅に優れている。
関連論文リスト
- VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors [27.685348720003823]
静止画とカメラモーションの映像の3Dオブジェクト合成を編集する手法として名前を提案する。
提案手法では,ビデオの全フレームにわたる3次元オブジェクトの位置を時間的に一貫した方法で編集することができる。
論文 参考訳(メタデータ) (2025-03-03T02:29:48Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。
これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文 参考訳(メタデータ) (2024-01-02T18:59:35Z) - MagicStick: Controllable Video Editing via Control Handle Transformations [49.29608051543133]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。