論文の概要: Semi-Supervised Video Inpainting with Cycle Consistency Constraints
- arxiv url: http://arxiv.org/abs/2208.06807v1
- Date: Sun, 14 Aug 2022 08:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:51:01.454605
- Title: Semi-Supervised Video Inpainting with Cycle Consistency Constraints
- Title(参考訳): サイクル整合性制約による半監督映像の塗装
- Authors: Zhiliang Wu, Hanyu Xuan, Changchang Sun, Kang Zhang, Yan Yan
- Abstract要約: 本稿では,完成ネットワークとマスク予測ネットワークからなるエンドツーエンドのトレーニング可能なフレームワークを提案する。
我々は、既知のマスクを用いて、現在のフレームの劣化した内容を生成し、次のフレームで満たされる領域をそれぞれ決定する。
我々のモデルは半教師付き方式で訓練されているが、完全な教師付き手法と同等の性能を達成できる。
- 参考スコア(独自算出の注目度): 13.414206652584236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based video inpainting has yielded promising results and gained
increasing attention from researchers. Generally, these methods usually assume
that the corrupted region masks of each frame are known and easily obtained.
However, the annotation of these masks are labor-intensive and expensive, which
limits the practical application of current methods. Therefore, we expect to
relax this assumption by defining a new semi-supervised inpainting setting,
making the networks have the ability of completing the corrupted regions of the
whole video using the annotated mask of only one frame. Specifically, in this
work, we propose an end-to-end trainable framework consisting of completion
network and mask prediction network, which are designed to generate corrupted
contents of the current frame using the known mask and decide the regions to be
filled of the next frame, respectively. Besides, we introduce a cycle
consistency loss to regularize the training parameters of these two networks.
In this way, the completion network and the mask prediction network can
constrain each other, and hence the overall performance of the trained model
can be maximized. Furthermore, due to the natural existence of prior knowledge
(e.g., corrupted contents and clear borders), current video inpainting datasets
are not suitable in the context of semi-supervised video inpainting. Thus, we
create a new dataset by simulating the corrupted video of real-world scenarios.
Extensive experimental results are reported to demonstrate the superiority of
our model in the video inpainting task. Remarkably, although our model is
trained in a semi-supervised manner, it can achieve comparable performance as
fully-supervised methods.
- Abstract(参考訳): 深層学習に基づくビデオの塗装は有望な結果をもたらし、研究者から注目を集めている。
これらの手法は通常、各フレームの破損した領域マスクが知られ、容易に取得できると仮定する。
しかし、これらのマスクの注釈は労働集約的で高価であり、現行の手法の実践的適用を制限している。
そこで我々は,この仮定を緩和するために,新たな半教師付きインペインティング設定を定義し,ネットワークに1フレームのみの注釈付きマスクを用いて,ビデオ全体の破損領域を完遂する能力を持たせることを期待する。
具体的には、既知マスクを用いて現在のフレームの劣化コンテンツを生成し、次のフレームで満たすべき領域を決定するために設計された、完了ネットワークとマスク予測ネットワークからなるエンドツーエンドのトレーニング可能なフレームワークを提案する。
さらに,これら2つのネットワークのトレーニングパラメータを規則化するサイクル一貫性損失を導入する。
このようにして、完了ネットワークとマスク予測ネットワークは互いに拘束でき、訓練されたモデルの全体的な性能を最大化することができる。
さらに、事前知識(例えば、腐敗した内容や明確な境界)が自然に存在するため、現在のビデオ塗装データセットは、半教師付きビデオ塗装の文脈では適切ではない。
そこで、実世界のシナリオの破損したビデオをシミュレートして、新しいデータセットを作成する。
ビデオインペインティングタスクにおけるモデルの優越性を示すために,広範な実験結果が報告された。
興味深いことに、我々のモデルは半教師付き方式で訓練されているが、完全な教師付き手法と同等のパフォーマンスを達成できる。
関連論文リスト
- Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - MixMask: Revisiting Masking Strategy for Siamese ConvNets [23.946791390657875]
この研究は、textbfMixMaskと呼ばれる新しいフィリングベースのマスキング手法を導入している。
提案手法は,消去された領域を別の画像からのコンテンツに置き換えることにより,従来のマスキング手法で見られる情報の枯渇を効果的に解消する。
我々は,線形探索,半教師付きおよび教師付きファインタニング,オブジェクト検出,セグメンテーションなどの領域におけるフレームワークの性能向上を実証的に検証した。
論文 参考訳(メタデータ) (2022-10-20T17:54:03Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:32:53Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。