Fugu-MT 論文翻訳(概要): Raformer: Redundancy-Aware Transformer for Video Wire Inpainting

論文の概要: Raformer: Redundancy-Aware Transformer for Video Wire Inpainting

arxiv url: http://arxiv.org/abs/2404.15802v1
Date: Wed, 24 Apr 2024 11:02:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:30:27.553116
Title: Raformer: Redundancy-Aware Transformer for Video Wire Inpainting
Title（参考訳）: Raformer:ビデオワイヤー塗装用の冗長性対応トランスフォーマー
Authors: Zhong Ji, Yimu Su, Yan Zhang, Jiacheng Hou, Yanwei Pang, Jungong Han,
Abstract要約: Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。 WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。 WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
参考スコア（独自算出の注目度）: 77.41727407673066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Wire Inpainting (VWI) is a prominent application in video inpainting, aimed at flawlessly removing wires in films or TV series, offering significant time and labor savings compared to manual frame-by-frame removal. However, wire removal poses greater challenges due to the wires being longer and slimmer than objects typically targeted in general video inpainting tasks, and often intersecting with people and background objects irregularly, which adds complexity to the inpainting process. Recognizing the limitations posed by existing video wire datasets, which are characterized by their small size, poor quality, and limited variety of scenes, we introduce a new VWI dataset with a novel mask generation strategy, namely Wire Removal Video Dataset 2 (WRV2) and Pseudo Wire-Shaped (PWS) Masks. WRV2 dataset comprises over 4,000 videos with an average length of 80 frames, designed to facilitate the development and efficacy of inpainting models. Building upon this, our research proposes the Redundancy-Aware Transformer (Raformer) method that addresses the unique challenges of wire removal in video inpainting. Unlike conventional approaches that indiscriminately process all frame patches, Raformer employs a novel strategy to selectively bypass redundant parts, such as static background segments devoid of valuable information for inpainting. At the core of Raformer is the Redundancy-Aware Attention (RAA) module, which isolates and accentuates essential content through a coarse-grained, window-based attention mechanism. This is complemented by a Soft Feature Alignment (SFA) module, which refines these features and achieves end-to-end feature alignment. Extensive experiments on both the traditional video inpainting datasets and our proposed WRV2 dataset demonstrate that Raformer outperforms other state-of-the-art methods.
Abstract（参考訳）: Video Wire Inpainting (VWI) は、フィルムやテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオインペイントにおける顕著な応用である。しかしながら、ワイヤの取り外しは、一般的にビデオの塗布作業で対象とするものよりも長く、細くなり、人や背景オブジェクトと不規則に交差することが多く、塗装プロセスに複雑さが生じるため、大きな課題となる。ビデオワイヤの小型化,品質の低さ,各種シーンの限定といった,既存のビデオワイヤデータセットの制約を認識し,新しいマスク生成戦略であるWire removal Video Dataset 2 (WRV2) と Pseudo Wire-Shaped (PWS) Masks を導入した新しいVWIデータセットを提案する。 WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。そこで本研究では,ビデオインペイントにおけるワイヤ除去のユニークな課題に対処する冗長性認識変換器(Raformer)法を提案する。すべてのフレームパッチを無差別に処理する従来のアプローチとは異なり、Raformerは、塗装に有用な情報を持たない静的な背景セグメントなど、冗長な部分を選択的にバイパスする新しい戦略を採用している。 Raformerのコアとなるのは、粗い粒度のウィンドウベースのアテンションメカニズムを通じて重要なコンテンツを分離しアクセントする、冗長性意識(RAA)モジュールである。これはSoft Feature Alignment (SFA)モジュールによって補完され、これらの機能を洗練し、エンドツーエンドの機能アライメントを実現する。従来のビデオインペイントデータセットと提案したWRV2データセットの両方に対する大規模な実験により、Raformerが他の最先端手法よりも優れていることが示された。

関連論文リスト

DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文参考訳（メタデータ） (2025-03-07T17:59:46Z)
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文参考訳（メタデータ） (2024-12-28T02:36:51Z)
Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文参考訳（メタデータ） (2024-08-21T08:01:00Z)
Learning Inclusion Matching for Animation Paint Bucket Colorization [76.4507878427755]
ネットワークにセグメント間の包摂関係を理解するための,学習に基づく新たな包摂的マッチングパイプラインを導入する。提案手法では,粗いカラーワープモジュールと包括的マッチングモジュールを統合した2段階のパイプラインを特徴とする。ネットワークのトレーニングを容易にするため,PaintBucket-Characterと呼ばれるユニークなデータセットも開発した。
論文参考訳（メタデータ） (2024-03-27T08:32:48Z)
Towards Online Real-Time Memory-based Video Inpainting Transformers [95.90235034520167]
近年、ディープニューラルネットワーク、特にビジョントランスフォーマーの台頭により、塗装タスクは大幅に改善されている。本稿では,冗長な計算を記憶・精算することで,既存のインペイント変換器を制約に適応するフレームワークを提案する。最新のインペイントモデルでこのフレームワークを使用することで、毎秒20フレームを超える一貫したスループットで、優れたオンライン結果が得られます。
論文参考訳（メタデータ） (2024-03-24T14:02:25Z)
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation [44.92712228326116]
ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。 MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
論文参考訳（メタデータ） (2024-03-20T16:53:45Z)
AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文参考訳（メタデータ） (2023-12-06T18:56:14Z)
Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文参考訳（メタデータ） (2022-07-05T09:27:53Z)
VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文参考訳（メタデータ） (2022-01-28T17:54:43Z)
Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文参考訳（メタデータ） (2021-08-15T15:46:57Z)
Internal Video Inpainting by Implicit Long-range Propagation [39.89676105875726]
本稿では,内部学習戦略を取り入れた映像インパインティングのための新しいフレームワークを提案する。畳み込みニューラルネットワークを既知の領域に適合させることにより、暗黙的に実現可能であることを示す。提案手法を別の課題に拡張する: 4Kビデオの1フレームに1つの物体マスクを与えるビデオから物体を除去する学習。
論文参考訳（メタデータ） (2021-08-04T08:56:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。