論文の概要: WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2601.10716v1
- Date: Thu, 15 Jan 2026 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.294428
- Title: WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments
- Title(参考訳): WildRayZer: 動的環境における自己監督型大規模ビュー合成
- Authors: Xuweiyi Chen, Wentao Zhou, Zezhou Cheng,
- Abstract要約: 我々は、カメラとオブジェクトの両方が動く動的環境において、新しいビュー合成(NVS)のためのフレームワークであるWildRayZerを紹介する。
WildRayZerは、一貫したリージョン削除とフルフレームのNVS品質の両方において、最適化ベースとフィードフォワードベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 12.449699948290215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present WildRayZer, a self-supervised framework for novel view synthesis (NVS) in dynamic environments where both the camera and objects move. Dynamic content breaks the multi-view consistency that static NVS models rely on, leading to ghosting, hallucinated geometry, and unstable pose estimation. WildRayZer addresses this by performing an analysis-by-synthesis test: a camera-only static renderer explains rigid structure, and its residuals reveal transient regions. From these residuals, we construct pseudo motion masks, distill a motion estimator, and use it to mask input tokens and gate loss gradients so supervision focuses on cross-view background completion. To enable large-scale training and evaluation, we curate Dynamic RealEstate10K (D-RE10K), a real-world dataset of 15K casually captured dynamic sequences, and D-RE10K-iPhone, a paired transient and clean benchmark for sparse-view transient-aware NVS. Experiments show that WildRayZer consistently outperforms optimization-based and feed-forward baselines in both transient-region removal and full-frame NVS quality with a single feed-forward pass.
- Abstract(参考訳): 我々は、カメラとオブジェクトの両方が動く動的環境において、新しいビュー合成(NVS)のための自己教師型フレームワークWildRayZerを提示する。
動的コンテンツは、静的NVSモデルが依存するマルチビュー一貫性を破り、ゴースト、幻覚幾何学、不安定なポーズ推定につながる。
WildRayZerは、分析バイシンセシステストによってこの問題に対処する。カメラのみの静的レンダラーが剛体構造を説明し、その残余が過渡的な領域を明らかにする。
これらの残留物から擬似運動マスクを構築し、運動推定器を蒸留し、入力トークンとゲート損失勾配をマスクするために使用することにより、監督はクロスビュー背景補完に焦点を当てる。
大規模なトレーニングと評価を可能にするため、15Kカジュアルにキャプチャされた動的シーケンスの実際のデータセットであるDynamic RealEstate10K(D-RE10K)と、スパースビューのトランジェント対応NVSのためのペアでクリーンなベンチマークであるD-RE10K-iPhoneをキュレートする。
実験によると、WildRayZerは、過渡領域削除とフルフレームNVS品質の両方において、最適化ベースとフィードフォワードベースラインを一貫して上回っている。
関連論文リスト
- DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset [0.0]
Dynamic Vision Sensors (DVS)のようなイベントカメラは、フルフレームではなくマイクロタイムの明るさ変化を報告している。
DVS-PedXは、正常および悪天候下での歩行者検出と横断意図解析のために設計されたニューロモルフィックデータセットである。
論文 参考訳(メタデータ) (2025-09-04T11:30:29Z) - UP-SLAM: Adaptively Structured Gaussian SLAM with Uncertainty Prediction in Dynamic Environments [1.4117999181375773]
UP-SLAMは動的環境のためのリアルタイムRGB-D SLAMシステムである。
並列化フレームワークを通じて追跡とマッピングを分離する。
実験により、ローカライズ精度とレンダリング品質の両方において最先端の手法より優れていることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T13:23:16Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - Multi-Level Neural Scene Graphs for Dynamic Urban Environments [64.26401304233843]
本稿では, 動的都市環境に対する新しい分解可能放射場アプローチを提案する。
本稿では,数百の高速移動物体を含む数十のシーケンスから数千の画像にスケールする多段階ニューラルシーングラフ表現を提案する。
論文 参考訳(メタデータ) (2024-03-29T21:52:01Z) - DynaMoN: Motion-Aware Fast and Robust Camera Localization for Dynamic Neural Radiance Fields [71.94156412354054]
動的ニューラルラジアンス場(DynaMoN)の高速かつロバストなカメラ位置推定法を提案する。
DynaMoNは、初期のカメラポーズ推定と高速で正確なノベルビュー合成のための静的集光線サンプリングのために動的コンテンツを処理している。
我々は,TUM RGB-DデータセットとBONN RGB-D Dynamicデータセットの2つの実世界の動的データセットに対するアプローチを広く評価した。
論文 参考訳(メタデータ) (2023-09-16T08:46:59Z) - SUDS: Scalable Urban Dynamic Scenes [46.965165390077146]
我々はニューラルラジアンス場(NeRF)を大規模都市に拡張する。
シーンを3つの別々のハッシュテーブルデータ構造に分解し、静的、動的、遠距離の放射場を効率的に符号化する。
私たちの再建は、数百kmの空間的フットプリントにまたがる1700の動画から、120万フレームにわたる数十万のオブジェクトにスケールすることができる。
論文 参考訳(メタデータ) (2023-03-25T18:55:09Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Editable Free-viewpoint Video Using a Layered Neural Representation [35.44420164057911]
我々は,スパース16カメラのみを用いた大規模ダイナミックシーンの編集可能な自由視点映像生成のための最初のアプローチを提案する。
私たちのアプローチの核心は、環境そのものを含む各動的エンティティがST-NeRFと呼ばれる時空コヒーレントな神経層放射線表現に定式化される新しい階層化された神経表現です。
実験は,ダイナミックシーンにおける高品質,フォトリアリスティック,編集可能な自由視点映像生成を実現するための手法の有効性を示す。
論文 参考訳(メタデータ) (2021-04-30T06:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。