論文の概要: Neural Atlas Graphs for Dynamic Scene Decomposition and Editing
- arxiv url: http://arxiv.org/abs/2509.16336v2
- Date: Wed, 29 Oct 2025 18:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.41854
- Title: Neural Atlas Graphs for Dynamic Scene Decomposition and Editing
- Title(参考訳): 動的シーン分解と編集のためのニューラルアトラスグラフ
- Authors: Jan Philipp Schneider, Pratik Singh Bisht, Ilya Chugunov, Andreas Kolb, Michael Moeller, Felix Heide,
- Abstract要約: 本稿では,各グラフノードがビュー依存型ニューラルアトラスであるハイブリッド高解像度シーン表現を提案する。
NAGはOpenデータセット上で最先端の定量的結果を達成する。
- 参考スコア(独自算出の注目度): 32.587200006985015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning editable high-resolution scene representations for dynamic scenes is an open problem with applications across the domains from autonomous driving to creative editing - the most successful approaches today make a trade-off between editability and supporting scene complexity: neural atlases represent dynamic scenes as two deforming image layers, foreground and background, which are editable in 2D, but break down when multiple objects occlude and interact. In contrast, scene graph models make use of annotated data such as masks and bounding boxes from autonomous-driving datasets to capture complex 3D spatial relationships, but their implicit volumetric node representations are challenging to edit view-consistently. We propose Neural Atlas Graphs (NAGs), a hybrid high-resolution scene representation, where every graph node is a view-dependent neural atlas, facilitating both 2D appearance editing and 3D ordering and positioning of scene elements. Fit at test-time, NAGs achieve state-of-the-art quantitative results on the Waymo Open Dataset - by 5 dB PSNR increase compared to existing methods - and make environmental editing possible in high resolution and visual quality - creating counterfactual driving scenarios with new backgrounds and edited vehicle appearance. We find that the method also generalizes beyond driving scenes and compares favorably - by more than 7 dB in PSNR - to recent matting and video editing baselines on the DAVIS video dataset with a diverse set of human and animal-centric scenes. Project Page: https://princeton-computational-imaging.github.io/nag/
- Abstract(参考訳): 動的シーンの編集可能な高解像度シーン表現は、自律的な運転から創造的な編集まで、ドメイン全体のアプリケーションにおいてオープンな問題である。今日の最も成功したアプローチは、編集可能性とシーンの複雑さのサポートのトレードオフである。
対照的に、シーングラフモデルは、自律的なデータセットからマスクやバウンディングボックスなどの注釈付きデータを使用して複雑な3次元空間関係をキャプチャするが、その暗黙的なボリュームノード表現は、ビュー一貫性のある編集を困難にしている。
そこで我々は,各グラフノードがビュー依存型ニューラルアトラスであるハイブリッドな高解像度シーン表現であるニューラルアトラス (NAG) を提案する。
テスト時のNAGは、既存の方法と比較して5dBのPSNRの増加によるWaymo Open Datasetの最先端の定量的結果を達成し、環境編集を高解像度と視覚的品質で可能にし、新しいバックグラウンドと編集された車両の外観を備えた反現実的な運転シナリオを作成する。
また,PSNRの7dB以上で,DAVISビデオデータセット上の最近のマッティングやビデオ編集のベースラインを人間や動物中心のシーンの多種多様なセットで比較した。
Project Page: https://princeton-computational-imaging.github.io/nag/
関連論文リスト
- SceneCrafter: Controllable Multi-View Driving Scene Editing [44.91248700043744]
SceneCrafterは、複数のカメラから撮影した運転シーンをリアルな3D一貫性で操作するための汎用的なエディタである。
SceneCrafterは、既存のベースラインと比較して最先端のリアリズム、制御性、3D一貫性、シーン編集品質を実現している。
論文 参考訳(メタデータ) (2025-06-24T10:23:47Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [90.57414218888536]
カラーフィールドは、標準画像(canonical image)とも呼ばれる、明示的な2次元の外観アグリゲーションとして学習する。
テクスチャクエリのために3Dポイントを2Dピクセルにマッピングする投影場を標準画像に補完する。
提案手法は,既存のNeRFベースの編集手法に比べて,編集1回あたり20倍高速であることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文 参考訳(メタデータ) (2023-06-13T18:32:35Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - EditableNeRF: Editing Topologically Varying Neural Radiance Fields by
Key Points [7.4100592531979625]
エンドユーザーが動的シーンを簡単に編集できる編集可能なニューラルレイディアンスフィールドを提案する。
我々のネットワークは完全に自動的に訓練され、選択した表面キーポイントを用いてトポロジ的に変動するダイナミクスをモデル化する。
提案手法は直感的な多次元編集(最大3次元)をサポートし,入力シーケンスにない斬新なシーンを生成する。
論文 参考訳(メタデータ) (2022-12-07T06:08:03Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。