論文の概要: One-Shot Video Inpainting
- arxiv url: http://arxiv.org/abs/2302.14362v1
- Date: Tue, 28 Feb 2023 07:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:49:27.973326
- Title: One-Shot Video Inpainting
- Title(参考訳): ワンショット・ビデオ・インペインティング
- Authors: Sangjin Lee, Suhwan Cho, Sangyoun Lee
- Abstract要約: ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
- 参考スコア(独自算出の注目度): 5.7120338754738835
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recently, removing objects from videos and filling in the erased regions
using deep video inpainting (VI) algorithms has attracted considerable
attention. Usually, a video sequence and object segmentation masks for all
frames are required as the input for this task. However, in real-world
applications, providing segmentation masks for all frames is quite difficult
and inefficient. Therefore, we deal with VI in a one-shot manner, which only
takes the initial frame's object mask as its input. Although we can achieve
that using naive combinations of video object segmentation (VOS) and VI
methods, they are sub-optimal and generally cause critical errors. To address
that, we propose a unified pipeline for one-shot video inpainting (OSVI). By
jointly learning mask prediction and video completion in an end-to-end manner,
the results can be optimal for the entire task instead of each separate module.
Additionally, unlike the two stage methods that use the predicted masks as
ground truth cues, our method is more reliable because the predicted masks can
be used as the network's internal guidance. On the synthesized datasets for
OSVI, our proposed method outperforms all others both quantitatively and
qualitatively.
- Abstract(参考訳): 近年,deep video inpainting (vi) アルゴリズムを用いて,映像から物体を取り除き,消去領域を埋め込む手法が注目されている。
通常、このタスクの入力には、すべてのフレームに対するビデオシーケンスとオブジェクトセグメンテーションマスクが必要である。
しかし、現実世界のアプリケーションでは、すべてのフレームにセグメンテーションマスクを提供することは非常に困難で非効率です。
そこで我々は、初期フレームのオブジェクトマスクのみを入力として、VIをワンショットで処理する。
ビデオオブジェクトセグメンテーション(VOS)とVIメソッドの単純な組み合わせで実現できるが、それらは準最適であり、一般的に致命的なエラーを引き起こす。
そこで我々は,one-shot video inpainting (osvi) のための統一パイプラインを提案する。
マスク予測とビデオ補完をエンドツーエンドで共同学習することで、各モジュールではなくタスク全体に対して最適な結果が得られる。
さらに, 予測マスクを地中真理の手がかりとして用いる2段階の手法とは異なり, 予測マスクをネットワークの内部ガイダンスとして用いることができるため, 本手法は信頼性が高い。
osvi用の合成データセットについて,提案手法は定量的および定性的に他手法よりも優れている。
関連論文リスト
- Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - Semi-Supervised Video Inpainting with Cycle Consistency Constraints [13.414206652584236]
本稿では,完成ネットワークとマスク予測ネットワークからなるエンドツーエンドのトレーニング可能なフレームワークを提案する。
我々は、既知のマスクを用いて、現在のフレームの劣化した内容を生成し、次のフレームで満たされる領域をそれぞれ決定する。
我々のモデルは半教師付き方式で訓練されているが、完全な教師付き手法と同等の性能を達成できる。
論文 参考訳(メタデータ) (2022-08-14T08:46:37Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - MSN: Efficient Online Mask Selection Network for Video Instance
Segmentation [7.208483056781188]
本稿では、オブジェクトクラスとともにインスタンスレベルのセグメンテーションマスクを自動的に生成し、ビデオ内で追跡するビデオインスタンス(VIS)の新しいソリューションを提案する。
マスク選択ネットワーク(MSN)を用いて,マスクのセグメンテーションと伝搬分岐をオンライン的に改善する。
この手法は2021年のYouTube-VISチャレンジで49.1mAPを獲得し、30以上のグローバルチームの中で3位にランクインした。
論文 参考訳(メタデータ) (2021-06-19T08:33:29Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。