論文の概要: OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.18033v1
- Date: Sun, 23 Mar 2025 11:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:35.660352
- Title: OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models
- Title(参考訳): OmnimatteZero:事前学習ビデオ拡散モデルによるトレーニング不要リアルタイムオムニマット
- Authors: Dvir Samuel, Matan Levy, Nir Darshan, Gal Chechik, Rami Ben-Ari,
- Abstract要約: オムニマテゼロ(OmnimatteZero)は、オムニマテの既訓練ビデオ拡散モデルを利用したトレーニング不要の手法である。
ビデオからオブジェクトを取り除き、個々のオブジェクト層をその効果とともに抽出し、それらのオブジェクトを新しいビデオに合成する。
自己注意マップは、オブジェクトとそのフットプリントに関する情報をキャプチャし、それらを使ってオブジェクトの効果を描き、クリーンな背景を残します。
- 参考スコア(独自算出の注目度): 31.48981364573974
- License:
- Abstract: Omnimatte aims to decompose a given video into semantically meaningful layers, including the background and individual objects along with their associated effects, such as shadows and reflections. Existing methods often require extensive training or costly self-supervised optimization. In this paper, we present OmnimatteZero, a training-free approach that leverages off-the-shelf pre-trained video diffusion models for omnimatte. It can remove objects from videos, extract individual object layers along with their effects, and composite those objects onto new videos. We accomplish this by adapting zero-shot image inpainting techniques for video object removal, a task they fail to handle effectively out-of-the-box. We then show that self-attention maps capture information about the object and its footprints and use them to inpaint the object's effects, leaving a clean background. Additionally, through simple latent arithmetic, object layers can be isolated and recombined seamlessly with new video layers to produce new videos. Evaluations show that OmnimatteZero not only achieves superior performance in terms of background reconstruction but also sets a new record for the fastest Omnimatte approach, achieving real-time performance with minimal frame runtime.
- Abstract(参考訳): Omnimatteは、特定の動画を意味のあるレイヤーに分解することを目的としており、背景や個々のオブジェクト、関連する効果、例えば影や反射などが含まれる。
既存の手法では、広範囲のトレーニングやコストのかかる自己監督最適化が必要となることが多い。
本稿では,OmnimatteZeroについて紹介する。Omnimatteは,Omnimatteの既訓練ビデオ拡散モデルを利用したトレーニング不要の手法である。
ビデオからオブジェクトを取り除き、個々のオブジェクト層をその効果とともに抽出し、それらのオブジェクトを新しいビデオに合成する。
我々は、映像オブジェクトの除去にゼロショット画像のインペイント技術を適用することで、これを実現する。
次に、自己注意マップがオブジェクトとそのフットプリントに関する情報をキャプチャし、それらを使ってオブジェクトの効果を描き、クリーンな背景を残します。
さらに、単純な潜時演算により、オブジェクト層を分離し、新しいビデオ層とシームレスに組み換えて、新しいビデオを生成することができる。
評価の結果、OmnimatteZeroはバックグラウンド再構成の点で優れたパフォーマンスを達成できるだけでなく、最小限のフレームランタイムでリアルタイムのパフォーマンスを達成し、最も高速なOmnimatteアプローチの新たな記録を樹立した。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - OmnimatteRF: Robust Omnimatte with 3D Background Modeling [42.844343885602214]
動的2次元前景層と3次元背景モデルを組み合わせた新しいビデオマッチング手法OmnimatteRFを提案する。
2Dレイヤーは被写体の詳細を保存し、3D背景は現実世界のビデオのシーンをしっかりと再構築する。
論文 参考訳(メタデータ) (2023-09-14T14:36:22Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Omnimatte: Associating Objects and Their Effects in Video [100.66205249649131]
映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。
本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。
私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
論文 参考訳(メタデータ) (2021-05-14T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。