論文の概要: Raformer: Redundancy-Aware Transformer for Video Wire Inpainting
- arxiv url: http://arxiv.org/abs/2404.15802v1
- Date: Wed, 24 Apr 2024 11:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:30:27.553116
- Title: Raformer: Redundancy-Aware Transformer for Video Wire Inpainting
- Title(参考訳): Raformer:ビデオワイヤー塗装用の冗長性対応トランスフォーマー
- Authors: Zhong Ji, Yimu Su, Yan Zhang, Jiacheng Hou, Yanwei Pang, Jungong Han,
- Abstract要約: Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
- 参考スコア(独自算出の注目度): 77.41727407673066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Wire Inpainting (VWI) is a prominent application in video inpainting, aimed at flawlessly removing wires in films or TV series, offering significant time and labor savings compared to manual frame-by-frame removal. However, wire removal poses greater challenges due to the wires being longer and slimmer than objects typically targeted in general video inpainting tasks, and often intersecting with people and background objects irregularly, which adds complexity to the inpainting process. Recognizing the limitations posed by existing video wire datasets, which are characterized by their small size, poor quality, and limited variety of scenes, we introduce a new VWI dataset with a novel mask generation strategy, namely Wire Removal Video Dataset 2 (WRV2) and Pseudo Wire-Shaped (PWS) Masks. WRV2 dataset comprises over 4,000 videos with an average length of 80 frames, designed to facilitate the development and efficacy of inpainting models. Building upon this, our research proposes the Redundancy-Aware Transformer (Raformer) method that addresses the unique challenges of wire removal in video inpainting. Unlike conventional approaches that indiscriminately process all frame patches, Raformer employs a novel strategy to selectively bypass redundant parts, such as static background segments devoid of valuable information for inpainting. At the core of Raformer is the Redundancy-Aware Attention (RAA) module, which isolates and accentuates essential content through a coarse-grained, window-based attention mechanism. This is complemented by a Soft Feature Alignment (SFA) module, which refines these features and achieves end-to-end feature alignment. Extensive experiments on both the traditional video inpainting datasets and our proposed WRV2 dataset demonstrate that Raformer outperforms other state-of-the-art methods.
- Abstract(参考訳): Video Wire Inpainting (VWI) は、フィルムやテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオインペイントにおける顕著な応用である。
しかしながら、ワイヤの取り外しは、一般的にビデオの塗布作業で対象とするものよりも長く、細くなり、人や背景オブジェクトと不規則に交差することが多く、塗装プロセスに複雑さが生じるため、大きな課題となる。
ビデオワイヤの小型化,品質の低さ,各種シーンの限定といった,既存のビデオワイヤデータセットの制約を認識し,新しいマスク生成戦略であるWire removal Video Dataset 2 (WRV2) と Pseudo Wire-Shaped (PWS) Masks を導入した新しいVWIデータセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
そこで本研究では,ビデオインペイントにおけるワイヤ除去のユニークな課題に対処する冗長性認識変換器(Raformer)法を提案する。
すべてのフレームパッチを無差別に処理する従来のアプローチとは異なり、Raformerは、塗装に有用な情報を持たない静的な背景セグメントなど、冗長な部分を選択的にバイパスする新しい戦略を採用している。
Raformerのコアとなるのは、粗い粒度のウィンドウベースのアテンションメカニズムを通じて重要なコンテンツを分離しアクセントする、冗長性意識(RAA)モジュールである。
これはSoft Feature Alignment (SFA)モジュールによって補完され、これらの機能を洗練し、エンドツーエンドの機能アライメントを実現する。
従来のビデオインペイントデータセットと提案したWRV2データセットの両方に対する大規模な実験により、Raformerが他の最先端手法よりも優れていることが示された。
関連論文リスト
- AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Semi-Supervised Video Inpainting with Cycle Consistency Constraints [13.414206652584236]
本稿では,完成ネットワークとマスク予測ネットワークからなるエンドツーエンドのトレーニング可能なフレームワークを提案する。
我々は、既知のマスクを用いて、現在のフレームの劣化した内容を生成し、次のフレームで満たされる領域をそれぞれ決定する。
我々のモデルは半教師付き方式で訓練されているが、完全な教師付き手法と同等の性能を達成できる。
論文 参考訳(メタデータ) (2022-08-14T08:46:37Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Internal Video Inpainting by Implicit Long-range Propagation [39.89676105875726]
本稿では,内部学習戦略を取り入れた映像インパインティングのための新しいフレームワークを提案する。
畳み込みニューラルネットワークを既知の領域に適合させることにより、暗黙的に実現可能であることを示す。
提案手法を別の課題に拡張する: 4Kビデオの1フレームに1つの物体マスクを与えるビデオから物体を除去する学習。
論文 参考訳(メタデータ) (2021-08-04T08:56:28Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。