論文の概要: NeRV-Diffusion: Diffuse Implicit Neural Representations for Video Synthesis
- arxiv url: http://arxiv.org/abs/2509.24353v1
- Date: Mon, 29 Sep 2025 06:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.799552
- Title: NeRV-Diffusion: Diffuse Implicit Neural Representations for Video Synthesis
- Title(参考訳): NeRV拡散:ビデオ合成のための難易度含みニューラル表現
- Authors: Yixuan Ren, Hanyu Wang, Hao Chen, Bo He, Abhinav Shrivastava,
- Abstract要約: NeRV-Diffusionは暗黙の潜伏ビデオ拡散モデルであり、ニューラルネットワークの重みを生成することによってビデオを合成する。
フレームワイドな特徴マップにビデオをエンコードする従来のビデオトークンとは対照的に、NEV-Diffusionは圧縮して、統一されたニューラルネットワークとしてビデオを生成する。
- 参考スコア(独自算出の注目度): 48.35964370809449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NeRV-Diffusion, an implicit latent video diffusion model that synthesizes videos via generating neural network weights. The generated weights can be rearranged as the parameters of a convolutional neural network, which forms an implicit neural representation (INR), and decodes into videos with frame indices as the input. Our framework consists of two stages: 1) A hypernetworkbased tokenizer that encodes raw videos from pixel space to neural parameter space, where the bottleneck latent serves as INR weights to decode. 2) An implicit diffusion transformer that denoises on the latent INR weights. In contrast to traditional video tokenizers that encode videos into frame-wise feature maps, NeRV-Diffusion compresses and generates a video holistically as a unified neural network. This enables efficient and high-quality video synthesis via obviating temporal cross-frame attentions in the denoiser and decoding video latent with dedicated decoders. To achieve Gaussian-distributed INR weights with high expressiveness, we reuse the bottleneck latent across all NeRV layers, as well as reform its weight assignment, upsampling connection and input coordinates. We also introduce SNR-adaptive loss weighting and scheduled sampling for effective training of the implicit diffusion model. NeRV-Diffusion reaches superior video generation quality over previous INR-based models and comparable performance to most recent state-of-the-art non-implicit models on real-world video benchmarks including UCF-101 and Kinetics-600. It also brings a smooth INR weight space that facilitates seamless interpolations between frames or videos.
- Abstract(参考訳): ニューラルネットワークの重みを生成することによって映像を合成する暗黙の潜伏ビデオ拡散モデルであるNeRV-Diffusionを提案する。
生成された重みは、暗黙の神経表現(INR)を形成する畳み込みニューラルネットワークのパラメータとして再構成することができ、入力としてフレームインデックスを持つビデオにデコードされる。
私たちのフレームワークは2つのステージで構成されています。
1) 画素空間からニューラルパラメータ空間への生動画を符号化するハイパーネットワークベースのトークンーザで、ボトルネック潜伏剤がINR重みとしてデコードする。
2)潜伏したINR重みを飾る暗黙の拡散変圧器。
フレームワイドな特徴マップにビデオをエンコードする従来のビデオトークンとは対照的に、NEV-Diffusionは圧縮して、統一されたニューラルネットワークとしてビデオを生成する。
これにより、Denoiserにおける時間的クロスフレームの注意を回避し、専用デコーダで遅延したビデオの復号化によって、効率的で高品質なビデオ合成が可能になる。
ガウス分布のINR重みを高表現性で達成するために、すべてのNeRV層にまたがるボトルネック潜伏を再利用し、重み割り当て、アップサンプリング接続および入力座標を再構築する。
また、暗黙的拡散モデルの効果的なトレーニングのために、SNR適応損失重み付けとスケジュールサンプリングを導入する。
NeRV-Diffusion は以前の INR モデルよりも優れたビデオ生成品質に達し、UCF-101 や Kinetics-600 といった実世界のビデオベンチマークにおける最新の非実装モデルに匹敵する性能を示した。
また、フレームやビデオ間のシームレスな補間を容易にするスムーズなINR重み空間も提供する。
関連論文リスト
- NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。