論文の概要: CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2409.05166v5
- Date: Wed, 18 Dec 2024 03:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:19.346792
- Title: CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes
- Title(参考訳): CD-NGP:動的シーンのための高速でスケーラブルな連続表現
- Authors: Zhenhuan Liu, Shuai Liu, Zhiwei Ning, Jie Yang, Yifan Zuo, Yuming Fang, Wei Liu,
- Abstract要約: 動的シーンにおける新しいビュー合成(NVS)の現在の手法は、メモリ消費の管理、モデルの複雑さ、トレーニング効率、レンダリング忠実度といった重要な課題に直面している。
本稿では,これらの問題に対処するために,連続的動的ニューラルネットワークプリミティブ(CD-NGP)を提案する。
提案手法は,メモリオーバーヘッドを低減するために連続学習フレームワークを活用するとともに,時間的および空間的なハッシュエンコーディングの異なる特徴を統合し,高いレンダリング品質を実現する。
- 参考スコア(独自算出の注目度): 31.783117836434403
- License:
- Abstract: Current methods for novel view synthesis (NVS) in dynamic scenes encounter significant challenges in managing memory consumption, model complexity, training efficiency, and rendering fidelity. Existing offline techniques, while delivering high-quality results, face challenges from substantial memory demands and limited scalability. Conversely, online methods struggle to balance rapid convergence with model compactness. To address these issues, we propose continual dynamic neural graphics primitives (CD-NGP). Our approach leverages a continual learning framework to reduce memory overhead, and it also integrates features from distinct temporal and spatial hash encodings for high rendering quality. Meanwhile, our method employs parameter reuse to achieve high scalability. Additionally, we introduce a novel dataset featuring multi-view, exceptionally long video sequences with substantial rigid and non-rigid motion, which is seldom possessed by existing datasets. We evaluate the reconstruction quality, speed and scalability of our method on both the established public datasets and our exceptionally long video dataset. Notably, our method achieves an $85\%$ reduction in training memory consumption (less than 14GB) compared to offline techniques and significantly lowers streaming bandwidth requirements (less than 0.4MB/frame) relative to other online alternatives. The experimental results on our long video sequences dataset show the superior scalability and reconstruction quality compared to existing state-of-the-art approaches.
- Abstract(参考訳): 動的シーンにおける新しいビュー合成(NVS)の現在の手法は、メモリ消費の管理、モデルの複雑さ、トレーニング効率、レンダリング忠実度といった重要な課題に直面している。
既存のオフライン技術は、高品質な結果を提供する一方で、かなりのメモリ要求と限られたスケーラビリティの課題に直面している。
逆に、オンライン手法は、迅速な収束とモデルのコンパクトさのバランスをとるのに苦労する。
これらの問題に対処するため,我々は連続的動的グラフィックスプリミティブ(CD-NGP)を提案する。
提案手法は,メモリオーバーヘッドを低減するために連続学習フレームワークを活用するとともに,時間的および空間的なハッシュエンコーディングの異なる特徴を統合し,高いレンダリング品質を実現する。
一方,本手法では,高スケーラビリティを実現するためにパラメータ再利用を用いる。
さらに,既存のデータセットではめったに持たない,頑健で非剛性な動きを伴う,マルチビューで例外的に長いビデオシーケンスを特徴とする新しいデータセットも紹介する。
我々は,確立した公開データセットと非常に長いビデオデータセットの両方において,提案手法の再現性,速度,スケーラビリティを評価した。
特に,本手法は,オフライン手法と比較して,トレーニングメモリ使用量(14GB未満)を8,5 %削減し,他のオンライン手法と比較してストリーミング帯域幅(0.4MB/frame未満)を大幅に削減する。
長大なビデオシーケンスデータセットの実験結果から,既存の最先端手法と比較して,スケーラビリティと再現性に優れていた。
関連論文リスト
- Low Resource Video Super-resolution using Memory and Residual Deformable Convolutions [3.018928786249079]
トランスフォーマーベースのビデオスーパーレゾリューション(VSR)モデルは近年、新しいベンチマークを設定しているが、その相当な計算要求により、リソースに制約のあるデバイスへの展開には適さないものが多い。
本稿では,VSRのための軽量・パラメータ効率の深い残留変形可能な畳み込みネットワークを提案する。
パラメータはわずか230万であり、REDS4データセット上での最先端のSSIMは0.9175である。
論文 参考訳(メタデータ) (2025-02-03T20:46:15Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。
本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。
本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文 参考訳(メタデータ) (2024-11-13T18:19:51Z) - Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。
連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。
本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文 参考訳(メタデータ) (2024-11-10T21:30:16Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。