論文の概要: DynPoint: Dynamic Neural Point For View Synthesis
- arxiv url: http://arxiv.org/abs/2310.18999v4
- Date: Sat, 18 Jan 2025 16:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:51.164328
- Title: DynPoint: Dynamic Neural Point For View Synthesis
- Title(参考訳): DynPoint:ビュー合成のための動的ニューラルポイント
- Authors: Kaichen Zhou, Jia-Xing Zhong, Sangyun Shin, Kai Lu, Yiyuan Yang, Andrew Markham, Niki Trigoni,
- Abstract要約: 我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
- 参考スコア(独自算出の注目度): 43.27110788061267
- License:
- Abstract: The introduction of neural radiance fields has greatly improved the effectiveness of view synthesis for monocular videos. However, existing algorithms face difficulties when dealing with uncontrolled or lengthy scenarios, and require extensive training time specific to each new scenario. To tackle these limitations, we propose DynPoint, an algorithm designed to facilitate the rapid synthesis of novel views for unconstrained monocular videos. Rather than encoding the entirety of the scenario information into a latent representation, DynPoint concentrates on predicting the explicit 3D correspondence between neighboring frames to realize information aggregation. Specifically, this correspondence prediction is achieved through the estimation of consistent depth and scene flow information across frames. Subsequently, the acquired correspondence is utilized to aggregate information from multiple reference frames to a target frame, by constructing hierarchical neural point clouds. The resulting framework enables swift and accurate view synthesis for desired views of target frames. The experimental results obtained demonstrate the considerable acceleration of training time achieved - typically an order of magnitude - by our proposed method while yielding comparable outcomes compared to prior approaches. Furthermore, our method exhibits strong robustness in handling long-duration videos without learning a canonical representation of video content.
- Abstract(参考訳): 神経放射場の導入により、単眼ビデオにおけるビュー合成の有効性が大幅に向上した。
しかし、既存のアルゴリズムは、制御されていないシナリオや長いシナリオを扱う際に困難に直面し、新しいシナリオごとに広範なトレーニング時間を必要とする。
このような制約に対処するために,制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムDynPointを提案する。
シナリオ情報の全体を潜在表現にエンコードする代わりに、DynPointは近隣フレーム間の明示的な3D対応を予測して情報集約を実現する。
具体的には、フレーム間の一貫した深さとシーンフロー情報を推定することにより、この対応予測を実現する。
その後、取得した対応を利用して、階層的な神経点雲を構築することにより、複数の参照フレームから対象フレームへの情報を集約する。
結果として得られるフレームワークは、ターゲットフレームの望ましいビューに対して、迅速かつ正確なビュー合成を可能にする。
得られた実験結果は,提案手法によって達成された訓練時間(典型的には桁違いのオーダー)のかなりの加速を実証し,従来の手法と比較した結果を得た。
さらに,本手法は,ビデオコンテンツの正規表現を学習することなく,長編動画を扱う上で強い堅牢性を示す。
関連論文リスト
- D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Cascaded Deep Video Deblurring Using Temporal Sharpness Prior [88.98348546566675]
提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。
まず、中間潜伏フレームから光フローを推定し、推定した光フローに基づいて潜伏フレームを復元する深部CNNモデルを開発する。
ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトで効率的なものにすることができることを示す。
論文 参考訳(メタデータ) (2020-04-06T09:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。