論文の概要: Generative Omnimatte: Learning to Decompose Video into Layers
- arxiv url: http://arxiv.org/abs/2411.16683v1
- Date: Mon, 25 Nov 2024 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:09.851749
- Title: Generative Omnimatte: Learning to Decompose Video into Layers
- Title(参考訳): Generative Omnimatte: 動画をレイヤに分解する学習
- Authors: Yao-Chih Lee, Erika Lu, Sarah Rumbley, Michal Geyer, Jia-Bin Huang, Tali Dekel, Forrester Cole,
- Abstract要約: 本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
- 参考スコア(独自算出の注目度): 29.098471541412113
- License:
- Abstract: Given a video and a set of input object masks, an omnimatte method aims to decompose the video into semantically meaningful layers containing individual objects along with their associated effects, such as shadows and reflections. Existing omnimatte methods assume a static background or accurate pose and depth estimation and produce poor decompositions when these assumptions are violated. Furthermore, due to the lack of generative prior on natural videos, existing methods cannot complete dynamic occluded regions. We present a novel generative layered video decomposition framework to address the omnimatte problem. Our method does not assume a stationary scene or require camera pose or depth information and produces clean, complete layers, including convincing completions of occluded dynamic regions. Our core idea is to train a video diffusion model to identify and remove scene effects caused by a specific object. We show that this model can be finetuned from an existing video inpainting model with a small, carefully curated dataset, and demonstrate high-quality decompositions and editing results for a wide range of casually captured videos containing soft shadows, glossy reflections, splashing water, and more.
- Abstract(参考訳): ビデオと入力されたオブジェクトマスクのセットが与えられた場合、Omnimatteメソッドは、ビデオを個々のオブジェクトを含む意味的に意味のある層に分解し、それに関連する効果(影や反射など)を反映することを目的としている。
既存のオムニマト法では、静的な背景や正確なポーズと深さの推定を仮定し、これらの仮定が破られた場合の分解が不十分である。
さらに、自然ビデオに先立って生成が不足しているため、既存の手法では動的閉鎖領域を完遂できない。
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
本手法では,静止シーンを前提とせず,カメラのポーズや深度情報を必要とせず,隠蔽された動的領域の完成度を含むクリーンで完全な層を生成する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
このモデルは, ソフトシャドウ, グロスリフレクション, 水しぶきなどを含む多種多様なカジュアルな映像に対して, 高品質な分解と編集結果を示す。
関連論文リスト
- Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - OmnimatteRF: Robust Omnimatte with 3D Background Modeling [42.844343885602214]
動的2次元前景層と3次元背景モデルを組み合わせた新しいビデオマッチング手法OmnimatteRFを提案する。
2Dレイヤーは被写体の詳細を保存し、3D背景は現実世界のビデオのシーンをしっかりと再構築する。
論文 参考訳(メタデータ) (2023-09-14T14:36:22Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Omnimatte: Associating Objects and Their Effects in Video [100.66205249649131]
映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。
本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。
私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
論文 参考訳(メタデータ) (2021-05-14T17:57:08Z) - Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes [85.56602190773684]
従来のカメラ幾何学を用いて異なる視点からソースイメージを再レンダリングするビュー合成という考え方に基づいている。
映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。
論文 参考訳(メタデータ) (2021-05-05T17:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。