論文の概要: BVINet: Unlocking Blind Video Inpainting with Zero Annotations
- arxiv url: http://arxiv.org/abs/2502.01181v1
- Date: Mon, 03 Feb 2025 09:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:28.566704
- Title: BVINet: Unlocking Blind Video Inpainting with Zero Annotations
- Title(参考訳): BVINet:ゼロアノテーションでBlindの動画をアンロック
- Authors: Zhiliang Wu, Kerui Chen, Kun Li, Hehe Fan, Yi Yang,
- Abstract要約: そこで本稿では,視覚障害者向け視覚障害者向け視覚障害者向けインペイントネットワーク(BVINet)を提案し,同時に「インペイントの場所」と「インペイントの方法」の両方に対処する。
BVINetは、フレームのセマンティック不連続領域を検出し、ビデオに先立って時間的一貫性を利用することにより、破損した領域のマスクを予測することができる。
我々は、合成腐敗したビデオ、現実世界の破損したビデオ、およびそれに対応する完了したビデオからなるデータセットをカスタマイズする。
- 参考スコア(独自算出の注目度): 31.363309191994066
- License:
- Abstract: Video inpainting aims to fill in corrupted regions of the video with plausible contents. Existing methods generally assume that the locations of corrupted regions are known, focusing primarily on the "how to inpaint". This reliance necessitates manual annotation of the corrupted regions using binary masks to indicate "whereto inpaint". However, the annotation of these masks is labor-intensive and expensive, limiting the practicality of current methods. In this paper, we expect to relax this assumption by defining a new blind video inpainting setting, enabling the networks to learn the mapping from corrupted video to inpainted result directly, eliminating the need of corrupted region annotations. Specifically, we propose an end-to-end blind video inpainting network (BVINet) to address both "where to inpaint" and "how to inpaint" simultaneously. On the one hand, BVINet can predict the masks of corrupted regions by detecting semantic-discontinuous regions of the frame and utilizing temporal consistency prior of the video. On the other hand, the predicted masks are incorporated into the BVINet, allowing it to capture valid context information from uncorrupted regions to fill in corrupted ones. Besides, we introduce a consistency loss to regularize the training parameters of BVINet. In this way, mask prediction and video completion mutually constrain each other, thereby maximizing the overall performance of the trained model. Furthermore, we customize a dataset consisting of synthetic corrupted videos, real-world corrupted videos, and their corresponding completed videos. This dataset serves as a valuable resource for advancing blind video inpainting research. Extensive experimental results demonstrate the effectiveness and superiority of our method.
- Abstract(参考訳): Video Inpaintingは、ビデオの破損した領域を、もっともらしい内容で埋めることを目的としている。
既存の手法は一般に、腐敗した地域の位置が知られていると仮定しており、主に「塗装方法」に焦点を当てている。
この依存は「塗る場所」を示すためにバイナリマスクを使用して、破損した地域の手動アノテーションを必要とする。
しかし、これらのマスクの注釈は労働集約的で高価であり、現行の手法の実用性に限界がある。
本稿では,新しいブラインドビデオの塗装設定を定義することで,この仮定を緩和し,劣化したビデオから劣化した結果への直接マッピングをネットワークが学べるようにし,劣化した領域アノテーションの必要をなくすことを期待する。
具体的には,エンド・ツー・エンドのブラインド・ビデオ・インペイント・ネットワーク (BVINet) を提案し,同時に「インペイントの場所」と「インペイントの方法」の両方に対処する。
一方、BVINetは、フレームのセマンティック不連続領域を検出し、ビデオの前に時間的一貫性を利用することにより、破損した領域のマスクを予測することができる。
一方、予測マスクはBVINetに組み込まれ、破損した領域から有効なコンテキスト情報をキャプチャして、破損した領域を埋めることができる。
さらに,BVINetのトレーニングパラメータを正規化するために一貫性損失を導入する。
このように、マスク予測とビデオ補完は相互に拘束され、訓練されたモデルの全体的な性能を最大化する。
さらに、合成腐敗したビデオ、現実世界の腐敗したビデオ、およびそれに対応する完了したビデオからなるデータセットをカスタマイズする。
このデータセットは、ブラインドビデオのインペイント研究を進めるための貴重なリソースとして役立ちます。
その結果,本手法の有効性と優位性を示した。
関連論文リスト
- Video Inpainting Localization with Contrastive Learning [2.1210527985139227]
ディープ・インペイントは通常、偽ビデオを作成するための重要なオブジェクトを削除する悪質な操作として使用される。
コントロアシブラーニング(ViLocal)を用いた簡易かつ効果的な映像塗装手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T15:15:54Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - One-Shot Video Inpainting [5.7120338754738835]
ワンショット・ビデオ・インパインティング(OSVI)のための統一パイプラインを提案する。
マスク予測と映像補完をエンドツーエンドで共同学習することにより,タスク全体に対して最適な結果が得られる。
提案手法は,予測マスクをネットワークの内部ガイダンスとして利用できるため,信頼性が高い。
論文 参考訳(メタデータ) (2023-02-28T07:30:36Z) - Semi-Supervised Video Inpainting with Cycle Consistency Constraints [13.414206652584236]
本稿では,完成ネットワークとマスク予測ネットワークからなるエンドツーエンドのトレーニング可能なフレームワークを提案する。
我々は、既知のマスクを用いて、現在のフレームの劣化した内容を生成し、次のフレームで満たされる領域をそれぞれ決定する。
我々のモデルは半教師付き方式で訓練されているが、完全な教師付き手法と同等の性能を達成できる。
論文 参考訳(メタデータ) (2022-08-14T08:46:37Z) - Flow-Guided Video Inpainting with Scene Templates [57.12499174362993]
ビデオの時間的欠落領域を埋めることの問題点を考察する。
本研究では、シーンから画像へのマッピングと、シーンに関連する画像生成モデルを導入する。
このモデルを用いて、シーンテンプレート、シーンの2次元表現、マッピングを共同で推論する。
論文 参考訳(メタデータ) (2021-08-29T13:49:13Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z) - DVI: Depth Guided Video Inpainting for Autonomous Driving [35.94330601020169]
本稿では,ビデオからトラヒックエージェントを除去する自動インペイントアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは幾何学的に相関する。
われわれは、ビデオのインペイントのために複数のビデオを融合した最初の人物だ。
論文 参考訳(メタデータ) (2020-07-17T09:29:53Z) - VCNet: A Robust Approach to Blind Image Inpainting [70.68227719731243]
ブラインド・インペインティング(Blind inpainting)は、画像内の欠落した領域のマスクを指定せずに、視覚的コンテンツを自動的に完了するタスクである。
本稿では,未知の領域パターンに対してブラインド塗装ニューラルネットワークのトレーニングを堅牢にする,新たなブラインド塗装設定を定義する。
我々の手法はブラインド画像の塗布において有効で堅牢であり、また当社のVCNは幅広い応用を可能にしている。
論文 参考訳(メタデータ) (2020-03-15T12:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。