論文の概要: Neural Atlas Graphs for Dynamic Scene Decomposition and Editing
- arxiv url: http://arxiv.org/abs/2509.16336v1
- Date: Fri, 19 Sep 2025 18:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.73941
- Title: Neural Atlas Graphs for Dynamic Scene Decomposition and Editing
- Title(参考訳): 動的シーン分解と編集のためのニューラルアトラスグラフ
- Authors: Jan Philipp Schneider, Pratik Singh Bisht, Ilya Chugunov, Andreas Kolb, Michael Moeller, Felix Heide,
- Abstract要約: 本稿では,各グラフノードがビュー依存型ニューラルアトラスであるハイブリッド高解像度シーン表現を提案する。
NAGはOpenデータセット上で最先端の定量的結果を達成する。
- 参考スコア(独自算出の注目度): 32.587200006985015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning editable high-resolution scene representations for dynamic scenes is an open problem with applications across the domains from autonomous driving to creative editing - the most successful approaches today make a trade-off between editability and supporting scene complexity: neural atlases represent dynamic scenes as two deforming image layers, foreground and background, which are editable in 2D, but break down when multiple objects occlude and interact. In contrast, scene graph models make use of annotated data such as masks and bounding boxes from autonomous-driving datasets to capture complex 3D spatial relationships, but their implicit volumetric node representations are challenging to edit view-consistently. We propose Neural Atlas Graphs (NAGs), a hybrid high-resolution scene representation, where every graph node is a view-dependent neural atlas, facilitating both 2D appearance editing and 3D ordering and positioning of scene elements. Fit at test-time, NAGs achieve state-of-the-art quantitative results on the Waymo Open Dataset - by 5 dB PSNR increase compared to existing methods - and make environmental editing possible in high resolution and visual quality - creating counterfactual driving scenarios with new backgrounds and edited vehicle appearance. We find that the method also generalizes beyond driving scenes and compares favorably - by more than 7 dB in PSNR - to recent matting and video editing baselines on the DAVIS video dataset with a diverse set of human and animal-centric scenes.
- Abstract(参考訳): 動的シーンの編集可能な高解像度シーン表現は、自律的な運転から創造的な編集まで、ドメイン全体のアプリケーションにおいてオープンな問題である。今日の最も成功したアプローチは、編集可能性とシーンの複雑さのサポートのトレードオフである。
対照的に、シーングラフモデルは、自律的なデータセットからマスクやバウンディングボックスなどの注釈付きデータを使用して複雑な3次元空間関係をキャプチャするが、その暗黙的なボリュームノード表現は、ビュー一貫性のある編集を困難にしている。
そこで我々は,各グラフノードがビュー依存型ニューラルアトラスであるハイブリッドな高解像度シーン表現であるニューラルアトラス (NAG) を提案する。
テスト時のNAGは、既存の方法と比較して5dBのPSNRの増加によるWaymo Open Datasetの最先端の定量的結果を達成し、環境編集を高解像度と視覚的品質で可能にし、新しいバックグラウンドと編集された車両の外観を備えた反現実的な運転シナリオを作成する。
また,PSNRの7dB以上で,DAVISビデオデータセット上の最近のマッティングやビデオ編集のベースラインを人間や動物中心のシーンの多種多様なセットで比較した。
関連論文リスト
- SceneCrafter: Controllable Multi-View Driving Scene Editing [44.91248700043744]
SceneCrafterは、複数のカメラから撮影した運転シーンをリアルな3D一貫性で操作するための汎用的なエディタである。
SceneCrafterは、既存のベースラインと比較して最先端のリアリズム、制御性、3D一貫性、シーン編集品質を実現している。
論文 参考訳(メタデータ) (2025-06-24T10:23:47Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。