論文の概要: FactorMatte: Redefining Video Matting for Re-Composition Tasks
- arxiv url: http://arxiv.org/abs/2211.02145v1
- Date: Thu, 3 Nov 2022 21:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:44:35.972306
- Title: FactorMatte: Redefining Video Matting for Re-Composition Tasks
- Title(参考訳): FactorMatte: 再構成タスクのためのビデオマッチングの再定義
- Authors: Zeqi Gu, Wenqi Xian, Noah Snavely, Abe Davis
- Abstract要約: ファクトリ・マッティング(factor matting)とは、映像合成におけるビデオ・マッティング問題の定式化である。
本稿では,複雑な層間相互作用を持つビデオにおいても有用な分解を行う因子マッチング問題の解法を提案する。
本手法はビデオごとのトレーニングであり,外部の大規模データセットの事前学習も,シーンの3次元構造に関する知識も必要としない。
- 参考スコア(独自算出の注目度): 48.767555453282526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose "factor matting", an alternative formulation of the video matting
problem in terms of counterfactual video synthesis that is better suited for
re-composition tasks. The goal of factor matting is to separate the contents of
video into independent components, each visualizing a counterfactual version of
the scene where contents of other components have been removed. We show that
factor matting maps well to a more general Bayesian framing of the matting
problem that accounts for complex conditional interactions between layers.
Based on this observation, we present a method for solving the factor matting
problem that produces useful decompositions even for video with complex
cross-layer interactions like splashes, shadows, and reflections. Our method is
trained per-video and requires neither pre-training on external large datasets,
nor knowledge about the 3D structure of the scene. We conduct extensive
experiments, and show that our method not only can disentangle scenes with
complex interactions, but also outperforms top methods on existing tasks such
as classical video matting and background subtraction. In addition, we
demonstrate the benefits of our approach on a range of downstream tasks. Please
refer to our project webpage for more details: https://factormatte.github.io
- Abstract(参考訳): 本研究では,ビデオマッティング問題に対する代替的定式化である「ファクタ・マッティング」を提案する。
因子マッチングの目的は、ビデオの内容を独立したコンポーネントに分離することであり、それぞれが他のコンポーネントのコンテンツが削除されたシーンの偽版を視覚化することである。
因子の整合性は、層間の複雑な条件相互作用を考慮に入れた整合性問題のより一般的なベイズフレーミングによく一致することを示す。
そこで本研究では,スプラッシュ,シャドウ,リフレクションといった複雑な層間相互作用を持つビデオにおいても有用な分解を行う因子マッチング問題の解法を提案する。
本手法はビデオ毎にトレーニングされ,外部の大規模データセットの事前トレーニングやシーンの3d構造に関する知識を必要としない。
提案手法は,複雑なインタラクションを伴うシーンを分離できるだけでなく,従来のビデオマットや背景サブトラクションといった既存のタスクにおける最上位メソッドよりも優れていることを示す。
さらに,ダウンストリームタスクにおけるアプローチのメリットを実証する。
詳しくはプロジェクトのwebページを見て欲しい。 https://factormatte.github.io
関連論文リスト
- Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Learning Video Instance Segmentation with Recurrent Graph Neural
Networks [39.06202374530647]
本稿では,ビデオインスタンスのセグメンテーション問題全体を共同でモデル化する,新しい学習形式を提案する。
私たちは、グラフニューラルネットワークの助けを借りて、利用可能なすべての新しい情報を各フレームで処理する、フレキシブルなモデルに適合します。
われわれのアプローチは25FPS以上で、従来のビデオリアルタイム手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-07T18:41:35Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。