論文の概要: Deformable Sprites for Unsupervised Video Decomposition
- arxiv url: http://arxiv.org/abs/2204.07151v1
- Date: Thu, 14 Apr 2022 17:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:38:40.992333
- Title: Deformable Sprites for Unsupervised Video Decomposition
- Title(参考訳): 教師なしビデオ分解のための変形可能なスプライト
- Authors: Vickie Ye, Zhengqi Li, Richard Tucker, Angjoo Kanazawa, Noah Snavely
- Abstract要約: それぞれのシーン要素を3つのコンポーネントからなるemphDeformable Spriteとして表現します。
その結果生じる分解により、一貫したビデオ編集のようなアプリケーションが可能になる。
- 参考スコア(独自算出の注目度): 66.73136214980309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a method to extract persistent elements of a dynamic scene from
an input video. We represent each scene element as a \emph{Deformable Sprite}
consisting of three components: 1) a 2D texture image for the entire video, 2)
per-frame masks for the element, and 3) non-rigid deformations that map the
texture image into each video frame. The resulting decomposition allows for
applications such as consistent video editing. Deformable Sprites are a type of
video auto-encoder model that is optimized on individual videos, and does not
require training on a large dataset, nor does it rely on pre-trained models.
Moreover, our method does not require object masks or other user input, and
discovers moving objects of a wider variety than previous work. We evaluate our
approach on standard video datasets and show qualitative results on a diverse
array of Internet videos. Code and video results can be found at
https://deformable-sprites.github.io
- Abstract(参考訳): 入力ビデオから動的シーンの永続的要素を抽出する手法について述べる。
各シーン要素を、3つのコンポーネントからなる \emph{deformable sprite} として表現します。
1)ビデオ全体の2次元テクスチャ画像。
2)当該素子のフレーム毎マスク、及び
3)テクスチャ画像を各ビデオフレームにマッピングする非剛性変形。
その結果生じる分解により、一貫したビデオ編集のようなアプリケーションが可能になる。
Deformable Spritesは、個々のビデオに最適化されたビデオ自動エンコーダモデルの一種で、大規模なデータセットのトレーニングを必要とせず、事前トレーニングされたモデルに依存しない。
さらに,提案手法では,オブジェクトマスクや他のユーザ入力は必要とせず,従来よりも広い範囲の移動物体を探索する。
我々は,標準ビデオデータセットに対するアプローチを評価し,インターネット上の多様なビデオに対して質的結果を示す。
コードとビデオの結果はhttps://deformable-sprites.github.ioで確認できる。
関連論文リスト
- CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - Hashing Neural Video Decomposition with Multiplicative Residuals in
Space-Time [14.015909536844337]
本稿では,時間的に異なる照明効果を持つ映像の階層的編集を容易にする映像分解手法を提案する。
本手法は,座標ハッシュを用いて1フレームあたり25秒で1080pビデオの層ベースニューラル表現を効率よく学習する。
本稿では,映像編集の一貫性を客観的に評価するための評価指標を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:36:14Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z) - Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。
背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文 参考訳(メタデータ) (2021-02-01T14:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。