論文の概要: Omnimatte: Associating Objects and Their Effects in Video
- arxiv url: http://arxiv.org/abs/2105.06993v1
- Date: Fri, 14 May 2021 17:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 13:38:55.813671
- Title: Omnimatte: Associating Objects and Their Effects in Video
- Title(参考訳): Omnimatte: オブジェクトの関連とビデオへの影響
- Authors: Erika Lu, Forrester Cole, Tali Dekel, Andrew Zisserman, William T.
Freeman, Michael Rubinstein
- Abstract要約: 映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。
本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。
私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
- 参考スコア(独自算出の注目度): 100.66205249649131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision is increasingly effective at segmenting objects in images and
videos; however, scene effects related to the objects---shadows, reflections,
generated smoke, etc---are typically overlooked. Identifying such scene effects
and associating them with the objects producing them is important for improving
our fundamental understanding of visual scenes, and can also assist a variety
of applications such as removing, duplicating, or enhancing objects in video.
In this work, we take a step towards solving this novel problem of
automatically associating objects with their effects in video. Given an
ordinary video and a rough segmentation mask over time of one or more subjects
of interest, we estimate an omnimatte for each subject---an alpha matte and
color image that includes the subject along with all its related time-varying
scene elements. Our model is trained only on the input video in a
self-supervised manner, without any manual labels, and is generic---it produces
omnimattes automatically for arbitrary objects and a variety of effects. We
show results on real-world videos containing interactions between different
types of subjects (cars, animals, people) and complex effects, ranging from
semi-transparent elements such as smoke and reflections, to fully opaque
effects such as objects attached to the subject.
- Abstract(参考訳): コンピュータビジョンは、画像やビデオのオブジェクトのセグメンテーションに益々有効であるが、シャドウ、反射、発煙などのオブジェクトに関連するシーン効果は見過ごされている。
このようなシーン効果を識別し、それらを生成するオブジェクトと関連付けることは、視覚シーンの基本的な理解を改善するために重要であり、また、ビデオ内のオブジェクトの削除、複製、拡張といった様々なアプリケーションを支援することもできる。
そこで本研究では,映像中の物体とそれらの効果を自動的に関連付けるという,この新たな問題を解決するための一歩を踏み出した。
1つ以上の被写体の時間に通常のビデオと粗いセグメンテーションマスクが与えられた場合、各被写体のオムニマットを推定する。
我々のモデルは、手動のラベルを使わずに、自己監督的な方法でのみ訓練され、任意のオブジェクトや様々な効果に対して、オムニマトを自動生成する。
被験者(車、動物、人間)と複雑な効果(煙や反射など半透明な要素から被写体に付随する物体のような完全に不透明な効果まで)の相互作用を含む実世界ビデオに結果を示す。
関連論文リスト
- Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - MVOC: a training-free multiple video object composition method with diffusion models [10.364986401722625]
拡散モデルに基づくMVOC法を提案する。
まず、各ビデオオブジェクトに対してDDIMインバージョンを行い、対応するノイズ特性を得る。
次に、画像編集手法で各オブジェクトを合成して編集し、合成ビデオの最初のフレームを得る。
論文 参考訳(メタデータ) (2024-06-22T12:18:46Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z) - Layered Neural Rendering for Retiming People in Video [108.85428504808318]
そこで本研究では,通常の自然ビデオで人々をリタイピングする手法を提案する。
異なる動きを時間的に調整したり、特定の動作の速度を変更したり、選択した人々をビデオから完全に「排除」したりできます。
このモデルの主な特徴は、入力ビデオ中の各人物の直接の動きを分離するだけでなく、各人物が生成するシーンの変化と自動的に関連付けることである。
論文 参考訳(メタデータ) (2020-09-16T17:48:26Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。