Fugu-MT 論文翻訳(概要): CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes

論文の概要: CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes

arxiv url: http://arxiv.org/abs/2409.05166v5
Date: Wed, 18 Dec 2024 03:14:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:51.866075
Title: CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes
Title（参考訳）: CD-NGP:動的シーンのための高速でスケーラブルな連続表現
Authors: Zhenhuan Liu, Shuai Liu, Zhiwei Ning, Jie Yang, Yifan Zuo, Yuming Fang, Wei Liu,
Abstract要約: 動的シーンにおける新しいビュー合成(NVS)の現在の手法は、メモリ消費の管理、モデルの複雑さ、トレーニング効率、レンダリング忠実度といった重要な課題に直面している。本稿では,これらの問題に対処するために,連続的動的ニューラルネットワークプリミティブ(CD-NGP)を提案する。提案手法は,メモリオーバーヘッドを低減するために連続学習フレームワークを活用するとともに,時間的および空間的なハッシュエンコーディングの異なる特徴を統合し,高いレンダリング品質を実現する。
参考スコア（独自算出の注目度）: 31.783117836434403
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Current methods for novel view synthesis (NVS) in dynamic scenes encounter significant challenges in managing memory consumption, model complexity, training efficiency, and rendering fidelity. Existing offline techniques, while delivering high-quality results, face challenges from substantial memory demands and limited scalability. Conversely, online methods struggle to balance rapid convergence with model compactness. To address these issues, we propose continual dynamic neural graphics primitives (CD-NGP). Our approach leverages a continual learning framework to reduce memory overhead, and it also integrates features from distinct temporal and spatial hash encodings for high rendering quality. Meanwhile, our method employs parameter reuse to achieve high scalability. Additionally, we introduce a novel dataset featuring multi-view, exceptionally long video sequences with substantial rigid and non-rigid motion, which is seldom possessed by existing datasets. We evaluate the reconstruction quality, speed and scalability of our method on both the established public datasets and our exceptionally long video dataset. Notably, our method achieves an $85\%$ reduction in training memory consumption (less than 14GB) compared to offline techniques and significantly lowers streaming bandwidth requirements (less than 0.4MB/frame) relative to other online alternatives. The experimental results on our long video sequences dataset show the superior scalability and reconstruction quality compared to existing state-of-the-art approaches.
Abstract（参考訳）: 動的シーンにおける新しいビュー合成(NVS)の現在の手法は、メモリ消費の管理、モデルの複雑さ、トレーニング効率、レンダリング忠実度といった重要な課題に直面している。既存のオフライン技術は、高品質な結果を提供する一方で、かなりのメモリ要求と限られたスケーラビリティの課題に直面している。逆に、オンライン手法は、迅速な収束とモデルのコンパクトさのバランスをとるのに苦労する。これらの問題に対処するため,我々は連続的動的グラフィックスプリミティブ(CD-NGP)を提案する。提案手法は,メモリオーバーヘッドを低減するために連続学習フレームワークを活用するとともに,時間的および空間的なハッシュエンコーディングの異なる特徴を統合し,高いレンダリング品質を実現する。一方,本手法では,高スケーラビリティを実現するためにパラメータ再利用を用いる。さらに,既存のデータセットではめったに持たない,頑健で非剛性な動きを伴う,マルチビューで例外的に長いビデオシーケンスを特徴とする新しいデータセットも紹介する。我々は,確立した公開データセットと非常に長いビデオデータセットの両方において,提案手法の再現性,速度,スケーラビリティを評価した。特に,本手法は,オフライン手法と比較して,トレーニングメモリ使用量(14GB未満)を8,5 %削減し,他のオンライン手法と比較してストリーミング帯域幅(0.4MB/frame未満)を大幅に削減する。長大なビデオシーケンスデータセットの実験結果から,既存の最先端手法と比較して,スケーラビリティと再現性に優れていた。

関連論文リスト

FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文参考訳（メタデータ） (2025-06-13T07:59:52Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-21T18:39:31Z)
VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate [16.826081397057774]
VGDFRは動的遅延フレームレートを持つ拡散型ビデオ生成のためのトレーニング不要のアプローチである。 VGDFRは、画質の劣化を最小限に抑えながら、ビデオ生成において最大3倍の高速化を実現することができることを示す。
論文参考訳（メタデータ） (2025-04-16T17:09:13Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
UAR-NVC: A Unified AutoRegressive Framework for Memory-Efficient Neural Video Compression [29.174318150967405]
Inlicit Neural Representation (INRs)は、ビデオをニューラルネットワークとして表現することで、ビデオ圧縮において大きな可能性を証明している。本稿では、自己回帰(AR)の観点からのINRモデルの新たな理解と、メモリ効率の高いニューラルビデオ圧縮(UAR-NVC)のための統一自己回帰フレームワークを提案する。 UAR-NVCは、タイムラインベースとINRベースのニューラルビデオ圧縮を統合自己回帰パラダイムの下で統合する。
論文参考訳（メタデータ） (2025-03-04T15:54:57Z)
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文参考訳（メタデータ） (2025-02-28T18:56:35Z)
Efficient 4D Gaussian Stream with Low Rank Adaptation [8.69899446610606]
連続学習を用いた動的新規ビュー合成のための高度にスケーラブルな手法を提案する。本手法は,ビデオフレームのチャンクで連続的に動的に再構成し,オフラインSOTA法に匹敵する高画質を維持しながら,ストリーミング帯域幅を90%削減する。
論文参考訳（メタデータ） (2025-02-23T13:48:52Z)
Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文参考訳（メタデータ） (2024-11-10T21:30:16Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
Data Overfitting for On-Device Super-Resolution with Dynamic Algorithm and Compiler Co-Design [18.57172631588624]
本稿では,Content-Awareデータ処理パイプラインが支援する動的ディープニューラルネットワークを提案する。本手法は,市販携帯電話上でのPSNRとリアルタイム性能(33FPS)の向上を実現する。
論文参考訳（メタデータ） (2024-07-03T05:17:26Z)
D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文参考訳（メタデータ） (2024-06-14T14:35:44Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文参考訳（メタデータ） (2023-09-15T05:31:53Z)
Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:03:23Z)
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文参考訳（メタデータ） (2023-05-18T11:06:15Z)
Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。 TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文参考訳（メタデータ） (2023-04-03T06:10:06Z)
Evolve Smoothly, Fit Consistently: Learning Smooth Latent Dynamics For Advection-Dominated Systems [14.553972457854517]
複雑な物理系のサロゲートモデルを学ぶための,データ駆動・時空連続フレームワークを提案する。ネットワークの表現力と特別に設計された整合性誘導正規化を利用して,低次元かつ滑らかな潜在軌道を得る。
論文参考訳（メタデータ） (2023-01-25T03:06:03Z)
HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned Sampling [60.90470761333465]
提案するHyperReelは,新しい6-DoFビデオ表現である。 The two core components of HyperReel is a ray-conditioned sample prediction network which allow a high-fidelity, high frame rate rendering at high resolution and (2) compact and memory- efficient dynamic volume representation。
論文参考訳（メタデータ） (2023-01-05T18:59:44Z)
Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文参考訳（メタデータ） (2022-12-02T18:51:10Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
Multivariate Time Series Forecasting with Dynamic Graph Neural ODEs [65.18780403244178]
動的グラフニューラル正規微分方程式(MTGODE)を用いた多変量時系列予測連続モデルを提案する。具体的には、まず、時間進化するノードの特徴と未知のグラフ構造を持つ動的グラフに多変量時系列を抽象化する。そして、欠落したグラフトポロジを補完し、空間的および時間的メッセージパッシングを統一するために、ニューラルODEを設計、解決する。
論文参考訳（メタデータ） (2022-02-17T02:17:31Z)
Temporal-MPI: Enabling Multi-Plane Images for Dynamic Scene Modelling via Temporal Basis Learning [6.952039070065292]
ビデオ全体を通してリッチな3Dおよび動的変動情報をコンパクトな時間的ベースとしてエンコードできる新しいテンポラルMPI表現を提案する。提案するTemporal-MPIフレームワークは,従来の動的シーンモデリングフレームワークと比較して最大3000倍高速な,0.002秒のタイムスタンスMPIを生成することができる。
論文参考訳（メタデータ） (2021-11-20T07:34:28Z)
Enabling Continual Learning with Differentiable Hebbian Plasticity [18.12749708143404]
連続学習は、獲得した知識を保護しながら、新しいタスクや知識を順次学習する問題である。破滅的な忘れ物は、そのような学習プロセスを実行するニューラルネットワークにとって、大きな課題となる。微分可能なヘビアン塑性からなるヘビアンコンソリデーションモデルを提案する。
論文参考訳（メタデータ） (2020-06-30T06:42:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。