論文の概要: CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2409.05166v4
- Date: Wed, 23 Oct 2024 02:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 22:38:45.519799
- Title: CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes
- Title(参考訳): CD-NGP:動的シーンのための高速でスケーラブルな連続表現
- Authors: Zhenhuan Liu, Shuai Liu, Zhiwei Ning, Jie Yang, Wei Liu,
- Abstract要約: ビュー合成のための連続的動的ニューラルネットワークプリミティブ(CD-NGP)を提案する。
提案手法は時間的および空間的なハッシュエンコーディングから特徴を相乗化して高いレンダリング品質を実現する。
本稿では,厳格かつ非剛性な動きを持つマルチビュー,例外的に長いビデオシーケンスからなる新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 9.217592165862762
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current methodologies for novel view synthesis (NVS) in dynamic scenes encounter significant challenges in harmonizing memory consumption, model complexity, training efficiency, and rendering fidelity. Existing offline techniques, while delivering high-quality results, are often characterized by substantial memory demands and limited scalability. In contrast, online methods grapple with the challenge of balancing rapid convergence with model compactness. To address these issues, we propose continual dynamic neural graphics primitives (CD-NGP). Our approach synergizes features from both temporal and spatial hash encodings to achieve high rendering quality, employs parameter reuse to enhance scalability, and leverages a continual learning framework to mitigate memory overhead. Furthermore, we introduce a novel dataset comprising multi-view, exceptionally long video sequences with substantial rigid and non-rigid motion, thereby substantiating the scalability of our method.
- Abstract(参考訳): ダイナミックシーンにおける新しいビュー合成(NVS)の方法論は、メモリ消費の調和、モデルの複雑さ、トレーニング効率、レンダリング忠実度といった重要な課題に直面している。
既存のオフライン技術は、高品質な結果を提供する一方で、かなりのメモリ要求と限られたスケーラビリティによって特徴付けられることが多い。
対照的に、オンライン手法は、迅速な収束とモデルのコンパクトさのバランスをとるという課題に対処する。
これらの問題に対処するため,我々は連続的動的グラフィックスプリミティブ(CD-NGP)を提案する。
提案手法では,時間的および空間的ハッシュエンコーディングの機能を相乗化して高いレンダリング品質を実現し,拡張性を高めるためにパラメータ再利用を採用し,メモリオーバーヘッドを軽減するために連続的な学習フレームワークを活用する。
さらに,厳密かつ非剛性な動きを持つ多視点,例外的に長いビデオシーケンスからなる新しいデータセットを導入し,提案手法のスケーラビリティを実証する。
関連論文リスト
- DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。
我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文 参考訳(メタデータ) (2025-02-28T18:56:35Z) - Efficient 4D Gaussian Stream with Low Rank Adaptation [8.69899446610606]
連続学習を用いた動的新規ビュー合成のための高度にスケーラブルな手法を提案する。
本手法は,ビデオフレームのチャンクで連続的に動的に再構成し,オフラインSOTA法に匹敵する高画質を維持しながら,ストリーミング帯域幅を90%削減する。
論文 参考訳(メタデータ) (2025-02-23T13:48:52Z) - Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。
連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。
本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文 参考訳(メタデータ) (2024-11-10T21:30:16Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。
本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文 参考訳(メタデータ) (2024-07-03T05:17:26Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - Evolve Smoothly, Fit Consistently: Learning Smooth Latent Dynamics For
Advection-Dominated Systems [14.553972457854517]
複雑な物理系のサロゲートモデルを学ぶための,データ駆動・時空連続フレームワークを提案する。
ネットワークの表現力と特別に設計された整合性誘導正規化を利用して,低次元かつ滑らかな潜在軌道を得る。
論文 参考訳(メタデータ) (2023-01-25T03:06:03Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Multivariate Time Series Forecasting with Dynamic Graph Neural ODEs [65.18780403244178]
動的グラフニューラル正規微分方程式(MTGODE)を用いた多変量時系列予測連続モデルを提案する。
具体的には、まず、時間進化するノードの特徴と未知のグラフ構造を持つ動的グラフに多変量時系列を抽象化する。
そして、欠落したグラフトポロジを補完し、空間的および時間的メッセージパッシングを統一するために、ニューラルODEを設計、解決する。
論文 参考訳(メタデータ) (2022-02-17T02:17:31Z) - Temporal-MPI: Enabling Multi-Plane Images for Dynamic Scene Modelling
via Temporal Basis Learning [6.952039070065292]
ビデオ全体を通してリッチな3Dおよび動的変動情報をコンパクトな時間的ベースとしてエンコードできる新しいテンポラルMPI表現を提案する。
提案するTemporal-MPIフレームワークは,従来の動的シーンモデリングフレームワークと比較して最大3000倍高速な,0.002秒のタイムスタンスMPIを生成することができる。
論文 参考訳(メタデータ) (2021-11-20T07:34:28Z) - Enabling Continual Learning with Differentiable Hebbian Plasticity [18.12749708143404]
連続学習は、獲得した知識を保護しながら、新しいタスクや知識を順次学習する問題である。
破滅的な忘れ物は、そのような学習プロセスを実行するニューラルネットワークにとって、大きな課題となる。
微分可能なヘビアン塑性からなるヘビアンコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2020-06-30T06:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。