論文の概要: Layered Neural Atlases for Consistent Video Editing
- arxiv url: http://arxiv.org/abs/2109.11418v1
- Date: Thu, 23 Sep 2021 14:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:53:00.485519
- Title: Layered Neural Atlases for Consistent Video Editing
- Title(参考訳): 映像編集のための階層型ニューラルアトラス
- Authors: Yoni Kasten, Dolev Ofri, Oliver Wang, Tali Dekel
- Abstract要約: 本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
- 参考スコア(独自算出の注目度): 37.69447642502351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method that decomposes, or "unwraps", an input video into a set
of layered 2D atlases, each providing a unified representation of the
appearance of an object (or background) over the video. For each pixel in the
video, our method estimates its corresponding 2D coordinate in each of the
atlases, giving us a consistent parameterization of the video, along with an
associated alpha (opacity) value. Importantly, we design our atlases to be
interpretable and semantic, which facilitates easy and intuitive editing in the
atlas domain, with minimal manual work required. Edits applied to a single 2D
atlas (or input video frame) are automatically and consistently mapped back to
the original video frames, while preserving occlusions, deformation, and other
complex scene effects such as shadows and reflections. Our method employs a
coordinate-based Multilayer Perceptron (MLP) representation for mappings,
atlases, and alphas, which are jointly optimized on a per-video basis, using a
combination of video reconstruction and regularization losses. By operating
purely in 2D, our method does not require any prior 3D knowledge about scene
geometry or camera poses, and can handle complex dynamic real world videos. We
demonstrate various video editing applications, including texture mapping,
video style transfer, image-to-video texture transfer, and
segmentation/labeling propagation, all automatically produced by editing a
single 2D atlas image.
- Abstract(参考訳): 本稿では,入力映像を階層化された2次元アトラスの集合に分解し,映像上のオブジェクト(あるいは背景)の外観を統一的に表現する手法を提案する。
ビデオ中の各画素について,それぞれのアトラスにおける対応する2d座標を推定し,関連するアルファ(opacity)値とともにビデオの一貫したパラメータ化を行う。
重要なのは、atlasドメインで簡単に直感的に編集できるように、最小限の手動作業でatlasを解釈可能でセマンティックに設計することです。
単一の2Dアトラス(または入力ビデオフレーム)に適用される編集は、シャドーやリフレクションなどの複雑なシーン効果を保ちながら、自動的に、一貫して元のビデオフレームにマッピングされる。
本手法では,ビデオ再構成と正規化損失の組み合わせを用いて,ビデオ毎に共同最適化されたマッピング,アトラス,アルファの座標に基づく多層パーセプトロン(MLP)表現を用いる。
純粋に2dで操作することで,シーン形状やカメラポーズに関する事前の3d知識を必要とせず,複雑なダイナミックな実世界映像を処理できる。
本研究では,テクスチャマッピング,ビデオスタイル転送,映像から映像へのテクスチャ転送,セグメンテーション/ラベル伝達など,様々な映像編集アプリケーションをデモした。
関連論文リスト
- Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos [47.97168047776216]
そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。
我々のモデルは、自己教師付き画像の特徴から抽出した意味的対応を利用して、ラベルなしのウェブビデオクリップの集合から純粋に学習する。
論文 参考訳(メタデータ) (2023-12-21T06:44:18Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。