論文の概要: INR-V: A Continuous Representation Space for Video-based Generative
Tasks
- arxiv url: http://arxiv.org/abs/2210.16579v1
- Date: Sat, 29 Oct 2022 11:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:26:54.559635
- Title: INR-V: A Continuous Representation Space for Video-based Generative
Tasks
- Title(参考訳): 映像生成タスクのための連続表現空間INR-V
- Authors: Bipasha Sen, Aditya Agarwal, Vinay P Namboodiri, C. V. Jawahar
- Abstract要約: 本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。
INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。
- 参考スコア(独自算出の注目度): 43.245717657048296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating videos is a complex task that is accomplished by generating a set
of temporally coherent images frame-by-frame. This limits the expressivity of
videos to only image-based operations on the individual video frames needing
network designs to obtain temporally coherent trajectories in the underlying
image space. We propose INR-V, a video representation network that learns a
continuous space for video-based generative tasks. INR-V parameterizes videos
using implicit neural representations (INRs), a multi-layered perceptron that
predicts an RGB value for each input pixel location of the video. The INR is
predicted using a meta-network which is a hypernetwork trained on neural
representations of multiple video instances. Later, the meta-network can be
sampled to generate diverse novel videos enabling many downstream video-based
generative tasks. Interestingly, we find that conditional regularization and
progressive weight initialization play a crucial role in obtaining INR-V. The
representation space learned by INR-V is more expressive than an image space
showcasing many interesting properties not possible with the existing works.
For instance, INR-V can smoothly interpolate intermediate videos between known
video instances (such as intermediate identities, expressions, and poses in
face videos). It can also in-paint missing portions in videos to recover
temporally coherent full videos. In this work, we evaluate the space learned by
INR-V on diverse generative tasks such as video interpolation, novel video
generation, video inversion, and video inpainting against the existing
baselines. INR-V significantly outperforms the baselines on several of these
demonstrated tasks, clearly showcasing the potential of the proposed
representation space.
- Abstract(参考訳): ビデオの生成は複雑な作業であり、フレームごとに時間的にコヒーレントな画像を生成する。
これにより、ビデオの表現性は、ネットワーク設計を必要とする個々のビデオフレーム上でのみの画像ベースの操作に制限される。
本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。
inr-vは、ビデオの各入力画素のrgb値を予測する多層パーセプトロンである暗黙的ニューラルネットワーク(inrs)を使用して、ビデオをパラメータ化する。
INRは、複数のビデオインスタンスの神経表現に基づいてトレーニングされたハイパーネットワークであるメタネットワークを使用して予測される。
その後、メタネットワークをサンプル化し、様々な新しいビデオを生成することで、下流のビデオベースの生成タスクを実現できる。
興味深いことに、条件付き正規化とプログレッシブウェイト初期化は、INR-Vを得る上で重要な役割を果たす。
INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。
例えば、inr-vは、既知のビデオインスタンス間(中間id、表情、ポーズなど)の中間ビデオをスムーズに補間することができる。
また、ビデオの欠落部分を塗りつぶして、一時的にコヒーレントなフルビデオを復元することもできる。
本研究では,INR-Vが学習した映像補間,新規映像生成,映像インバージョン,既存のベースラインに対する映像インペインティングなど,多様な生成タスクの空間を評価する。
INR-Vはこれらのいくつかの実証されたタスクのベースラインを著しく上回り、明らかに提案された表現空間の可能性を示している。
関連論文リスト
- Latent-INR: A Flexible Framework for Implicit Representations of Videos with Discriminative Semantics [38.52385865743416]
Implicit Neural Networks(INR)は、画像、ビデオ、オーディオ、シーンなど、あらゆる形式のデータをエンコードする強力な表現として登場した。
これらの符号化された表現は意味を欠くため、検索のようなそのような特性を必要とする下流のタスクには使用できない。
ビデオINRの空間的側面と時間的側面を分離するフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-05T17:59:51Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。