論文の概要: Hashing Neural Video Decomposition with Multiplicative Residuals in
Space-Time
- arxiv url: http://arxiv.org/abs/2309.14022v1
- Date: Mon, 25 Sep 2023 10:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:00:12.645147
- Title: Hashing Neural Video Decomposition with Multiplicative Residuals in
Space-Time
- Title(参考訳): 空間時間における多重残差を用いたハッシングニューラルビデオ分解
- Authors: Cheng-Hung Chan, Cheng-Yang Yuan, Cheng Sun, and Hwann-Tzong Chen
- Abstract要約: 本稿では,時間的に異なる照明効果を持つ映像の階層的編集を容易にする映像分解手法を提案する。
本手法は,座標ハッシュを用いて1フレームあたり25秒で1080pビデオの層ベースニューラル表現を効率よく学習する。
本稿では,映像編集の一貫性を客観的に評価するための評価指標を提案する。
- 参考スコア(独自算出の注目度): 14.015909536844337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a video decomposition method that facilitates layer-based editing
of videos with spatiotemporally varying lighting and motion effects. Our neural
model decomposes an input video into multiple layered representations, each
comprising a 2D texture map, a mask for the original video, and a
multiplicative residual characterizing the spatiotemporal variations in
lighting conditions. A single edit on the texture maps can be propagated to the
corresponding locations in the entire video frames while preserving other
contents' consistencies. Our method efficiently learns the layer-based neural
representations of a 1080p video in 25s per frame via coordinate hashing and
allows real-time rendering of the edited result at 71 fps on a single GPU.
Qualitatively, we run our method on various videos to show its effectiveness in
generating high-quality editing effects. Quantitatively, we propose to adopt
feature-tracking evaluation metrics for objectively assessing the consistency
of video editing. Project page: https://lightbulb12294.github.io/hashing-nvd/
- Abstract(参考訳): 本稿では,時空間的に異なる照明と動作効果を持つ映像の階層的編集を容易にする映像分解手法を提案する。
ニューラルネットワークは,入力映像を2次元テクスチャマップ,オリジナルビデオ用マスク,照明条件の時空間変動を特徴付ける乗法的残差からなる複数の階層化表現に分解する。
テクスチャマップ上の単一の編集は、他のコンテンツのコンピテンシーを保ちながら、ビデオフレーム全体の対応する場所に伝播することができる。
本手法は,1フレームあたり25秒の1080pビデオの階層ベースのニューラル表現を座標ハッシュにより効率的に学習し,71fpsのリアルタイムレンダリングを可能にする。
質的に,高品質な編集効果の生成に有効性を示すため,様々なビデオで提案手法を実行する。
本稿では,映像編集の一貫性を客観的に評価するための特徴追跡評価指標を提案する。
プロジェクトページ: https://lightbulb12294.github.io/hashing-nvd/
関連論文リスト
- Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing
with Diffusion Models [19.792535444735957]
RAVEは、事前訓練されたテキスト-画像拡散モデルを活用するゼロショットビデオ編集法である。
オリジナルモーションとセマンティックな構造を保ちながら高品質なビデオを生成する。
RAVEは、局所的な属性修正から形状変換まで、幅広い編集が可能である。
論文 参考訳(メタデータ) (2023-12-07T18:43:45Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [19.20749207287002]
本稿では,ゼロショットテキストベースのビデオ編集手法であるVidEditを紹介する。
本研究では,アトラスベースと事前学習したテキストと画像の拡散モデルを組み合わせて,学習不要で効率的な編集方法を提案する。
実験により、VidEditはDAVISデータセット上で最先端のメソッドより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Layered Neural Rendering for Retiming People in Video [108.85428504808318]
そこで本研究では,通常の自然ビデオで人々をリタイピングする手法を提案する。
異なる動きを時間的に調整したり、特定の動作の速度を変更したり、選択した人々をビデオから完全に「排除」したりできます。
このモデルの主な特徴は、入力ビデオ中の各人物の直接の動きを分離するだけでなく、各人物が生成するシーンの変化と自動的に関連付けることである。
論文 参考訳(メタデータ) (2020-09-16T17:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。