論文の概要: Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos
- arxiv url: http://arxiv.org/abs/2310.13356v2
- Date: Mon, 18 Dec 2023 11:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:39:09.984514
- Title: Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos
- Title(参考訳): Sync-NeRF: 動的NeRFを非同期ビデオに一般化する
- Authors: Seoha Kim, Jeongmin Bae, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung
Uh
- Abstract要約: 個別の非同期ビデオのタイムオフセットを導入し、NeRFと共同でオフセットを最適化する。
オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。
- 参考スコア(独自算出の注目度): 10.49905491984899
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in 4D scene reconstruction using neural radiance fields
(NeRF) have demonstrated the ability to represent dynamic scenes from
multi-view videos. However, they fail to reconstruct the dynamic scenes and
struggle to fit even the training views in unsynchronized settings. It happens
because they employ a single latent embedding for a frame while the multi-view
images at the same frame were actually captured at different moments. To
address this limitation, we introduce time offsets for individual
unsynchronized videos and jointly optimize the offsets with NeRF. By design,
our method is applicable for various baselines and improves them with large
margins. Furthermore, finding the offsets naturally works as synchronizing the
videos without manual effort. Experiments are conducted on the common Plenoptic
Video Dataset and a newly built Unsynchronized Dynamic Blender Dataset to
verify the performance of our method. Project page:
https://seoha-kim.github.io/sync-nerf
- Abstract(参考訳): ニューラルレイディアンスフィールド(NeRF)を用いた4次元シーン再構成の最近の進歩は、マルチビュービデオから動的シーンを表現できることを実証している。
しかし、動的シーンの再構築に失敗し、トレーニングビューでさえ同期しない設定に収まるのに苦労する。
同じフレームのマルチビューイメージが実際には異なる瞬間にキャプチャされたのに対して、フレームに1つの潜在埋め込みを採用しているからです。
この制限に対処するために,個々の非同期ビデオに対してタイムオフセットを導入し,nerfと共同でオフセットを最適化する。
設計上,本手法は様々なベースラインに適用可能であり,大きなマージンで改善できる。
さらに、オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。
plenopticビデオデータセットと新たに構築した非同期動的ブレンダデータセットを用いて,提案手法の性能を検証する実験を行った。
プロジェクトページ: https://seoha-kim.github.io/sync-nerf
関連論文リスト
- Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - CTNeRF: Cross-Time Transformer for Dynamic Neural Radiance Field from Monocular Video [25.551944406980297]
複雑でダイナミックなシーンのモノクロ映像から高品質な新しいビューを生成するための新しいアプローチを提案する。
物体の動きの特徴を集約するために,時間領域と周波数領域の両方で動作するモジュールを導入する。
実験により,動的シーンデータセットにおける最先端手法に対する大幅な改善が示された。
論文 参考訳(メタデータ) (2024-01-10T00:40:05Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Task Agnostic Restoration of Natural Video Dynamics [10.078712109708592]
多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。
本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-06-08T09:00:31Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。