論文の概要: HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks
- arxiv url: http://arxiv.org/abs/2503.17276v1
- Date: Fri, 21 Mar 2025 16:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:28.124904
- Title: HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks
- Title(参考訳): HyperNVD: Hypernetworksによるニューラルビデオ分解の高速化
- Authors: Maria Pilligua, Danna Xue, Javier Vazquez-Corral,
- Abstract要約: 既存のビデオ層分解モデルは、各ビデオに対して独立に訓練された暗黙の神経表現(INR)に依存している。
本稿では,新しいビデオの学習を高速化するために,一般的なビデオ分解モデルを学習するためのメタラーニング戦略を提案する。
我々の戦略は、シングルビデオオーバーフィッティングの問題を緩和し、重要なことは、新しい、目に見えないビデオに対するビデオ分解の収束を短縮する。
- 参考スコア(独自算出の注目度): 4.536530093400348
- License:
- Abstract: Decomposing a video into a layer-based representation is crucial for easy video editing for the creative industries, as it enables independent editing of specific layers. Existing video-layer decomposition models rely on implicit neural representations (INRs) trained independently for each video, making the process time-consuming when applied to new videos. Noticing this limitation, we propose a meta-learning strategy to learn a generic video decomposition model to speed up the training on new videos. Our model is based on a hypernetwork architecture which, given a video-encoder embedding, generates the parameters for a compact INR-based neural video decomposition model. Our strategy mitigates the problem of single-video overfitting and, importantly, shortens the convergence of video decomposition on new, unseen videos. Our code is available at: https://hypernvd.github.io/
- Abstract(参考訳): 動画をレイヤーベースの表現に分解することは、特定のレイヤーの独立的な編集を可能にするため、クリエイティブ産業にとって簡単なビデオ編集に不可欠である。
既存のビデオ層分解モデルは、各ビデオに対して独立して訓練された暗黙の神経表現(INR)に依存しており、新しいビデオに適用するプロセスに時間がかかる。
この制限に気付き、我々は、新しいビデオのトレーニングを高速化するために、一般的なビデオ分解モデルを学習するためのメタラーニング戦略を提案する。
我々のモデルは、ビデオエンコーダの埋め込みを前提として、コンパクトなINRベースのニューラルビデオ分解モデルのためのパラメータを生成するハイパーネットワークアーキテクチャに基づいている。
我々の戦略は、シングルビデオオーバーフィッティングの問題を緩和し、重要なことは、新しい、目に見えないビデオに対するビデオ分解の収束を短縮する。
私たちのコードは、https://hypernvd.github.io/で利用可能です。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Video to Video Generative Adversarial Network for Few-shot Learning Based on Policy Gradient [12.07088416665005]
条件付き条件-映像合成のための新しいディープニューラルネットワークアプローチであるRL-V2V-GANを提案する。
本手法は,ソースビデオドメインのスタイルを保存しながら,ソースビデオドメインからターゲットビデオドメインへの勾配マッピングを学習することを目的としている。
実験の結果,RL-V2V-GANは時間的コヒーレントなビデオ結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-28T01:35:10Z) - Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - MNeRV: A Multilayer Neural Representation for Videos [1.1079931610880582]
ビデオのための多層ニューラル表現(MNeRV)を提案し、新しいデコーダM-デコーダとそのマッチングエンコーダM-エンコーダを設計する。
MNeRVは、より多くのエンコーディング層とデコード層を持ち、冗長なモデルパラメータの問題を効果的に軽減する。
ビデオレグレッション再構成の分野では、より少ないパラメータでより良い再現品質(+4.06 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-07-10T03:57:29Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Overfitting the Data: Compact Neural Video Delivery via Content-aware
Feature Modulation [38.889823516049056]
ビデオはチャンクに分割し、LRビデオチャンクと対応するコンテンツ認識モデルをクライアントにストリームする。
提案手法では,各ビデオチャンクのストリーミングには1ドル未満のオリジナルパラメータしか必要とせず,より優れたSR性能を実現している。
論文 参考訳(メタデータ) (2021-08-18T15:34:11Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。