論文の概要: Geometry-guided Online 3D Video Synthesis with Multi-View Temporal Consistency
- arxiv url: http://arxiv.org/abs/2505.18932v1
- Date: Sun, 25 May 2025 01:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.762614
- Title: Geometry-guided Online 3D Video Synthesis with Multi-View Temporal Consistency
- Title(参考訳): 多視点時間一貫性を用いた幾何学誘導オンライン3次元ビデオ合成
- Authors: Hyunho Ha, Lei Xiao, Christian Richardt, Thu Nguyen-Phuoc, Changil Kim, Min H. Kim, Douglas Lanman, Numair Khan,
- Abstract要約: 本稿では,高度化と時間的整合性を備えた幾何学誘導型オンラインビデオビュー合成手法を提案する。
私たちのアプローチの主な革新は、画像ベースのレンダリングパイプラインのガイドにグローバルジオメトリを使用することです。
ネットワークは、幾何的に一貫した合成結果を複数のビューと時間にわたって出力することを奨励されている。
- 参考スコア(独自算出の注目度): 25.694983216910625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel geometry-guided online video view synthesis method with enhanced view and temporal consistency. Traditional approaches achieve high-quality synthesis from dense multi-view camera setups but require significant computational resources. In contrast, selective-input methods reduce this cost but often compromise quality, leading to multi-view and temporal inconsistencies such as flickering artifacts. Our method addresses this challenge to deliver efficient, high-quality novel-view synthesis with view and temporal consistency. The key innovation of our approach lies in using global geometry to guide an image-based rendering pipeline. To accomplish this, we progressively refine depth maps using color difference masks across time. These depth maps are then accumulated through truncated signed distance fields in the synthesized view's image space. This depth representation is view and temporally consistent, and is used to guide a pre-trained blending network that fuses multiple forward-rendered input-view images. Thus, the network is encouraged to output geometrically consistent synthesis results across multiple views and time. Our approach achieves consistent, high-quality video synthesis, while running efficiently in an online manner.
- Abstract(参考訳): 本稿では,高度化と時間的整合性を備えた幾何学誘導型オンラインビデオビュー合成手法を提案する。
従来のアプローチは、高密度のマルチビューカメラのセットアップから高品質な合成を実現するが、かなりの計算資源を必要とする。
対照的に、選択入力方式はコストを削減できるが、しばしば品質を損なう。
本手法は,この課題に対処し,ビューと時間的整合性を備えた,効率的で高品質なノベルビュー合成を実現する。
このアプローチの重要な革新は、画像ベースのレンダリングパイプラインのガイドにグローバルジオメトリを使用することです。
これを実現するために,色差マスクを用いた深度マップを徐々に改良する。
これらの深度マップは、合成されたビューの画像空間の符号付き距離場を通じて蓄積される。
この深度表現は、ビューであり、時間的に一貫したものであり、複数のフォワードレンダリングされた入力ビュー画像を融合する事前訓練されたブレンディングネットワークを導くために使用される。
したがって、ネットワークは、複数のビューと時間にわたって幾何学的に一貫した合成結果を出力することが奨励される。
提案手法は,オンライン方式で効率的に動作しながら,一貫した高品質なビデオ合成を実現する。
関連論文リスト
- Quark: Real-time, High-resolution, and General Neural View Synthesis [14.614589047064191]
本稿では,高品質,高解像度,リアルタイムの新規ビュー合成を実現するためのニューラルアルゴリズムを提案する。
入力されたRGB画像やビデオストリームのスパースセットから、3Dシーンを再構築し、NVIDIA A100上で1080pの解像度で新しいビューを30fpsでレンダリングします。
論文 参考訳(メタデータ) (2024-11-25T18:59:50Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。
スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。
対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-04-17T17:40:52Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。
既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文 参考訳(メタデータ) (2020-12-11T20:22:38Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。