論文の概要: ProPainter: Improving Propagation and Transformer for Video Inpainting
- arxiv url: http://arxiv.org/abs/2309.03897v1
- Date: Thu, 7 Sep 2023 17:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:48:16.159050
- Title: ProPainter: Improving Propagation and Transformer for Video Inpainting
- Title(参考訳): ProPainter: ビデオインペイントのためのプロパゲーションとトランスフォーマーの改善
- Authors: Shangchen Zhou, Chongyi Li, Kelvin C.K. Chan, Chen Change Loy
- Abstract要約: フローベース伝播と計算変換器はビデオインテンポラルにおける2つの主流メカニズムである(VI)
我々は、画像と特徴のワープの利点を組み合わせた二重領域の伝搬を導入し、グローバルな対応を確実に活用する。
また,冗長なトークンを破棄することで高効率を実現するマスク誘導スパースビデオトランスも提案する。
- 参考スコア(独自算出の注目度): 98.70898369695517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow-based propagation and spatiotemporal Transformer are two mainstream
mechanisms in video inpainting (VI). Despite the effectiveness of these
components, they still suffer from some limitations that affect their
performance. Previous propagation-based approaches are performed separately
either in the image or feature domain. Global image propagation isolated from
learning may cause spatial misalignment due to inaccurate optical flow.
Moreover, memory or computational constraints limit the temporal range of
feature propagation and video Transformer, preventing exploration of
correspondence information from distant frames. To address these issues, we
propose an improved framework, called ProPainter, which involves enhanced
ProPagation and an efficient Transformer. Specifically, we introduce
dual-domain propagation that combines the advantages of image and feature
warping, exploiting global correspondences reliably. We also propose a
mask-guided sparse video Transformer, which achieves high efficiency by
discarding unnecessary and redundant tokens. With these components, ProPainter
outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining
appealing efficiency.
- Abstract(参考訳): フローベースの伝搬と時空間トランスフォーマーはビデオインペイント(VI)における2つの主要なメカニズムである。
これらのコンポーネントの有効性にも拘わらず、パフォーマンスに影響を与えるいくつかの制限に苦しめられている。
従来の伝搬に基づくアプローチは、画像または特徴領域で別々に実行される。
学習から分離された大域的な画像伝播は、不正確な光流による空間的不均衡を引き起こす可能性がある。
さらに、メモリや計算の制約により、特徴伝播とビデオトランスフォーマーの時間範囲が制限され、遠隔フレームからの対応情報の探索が防止される。
これらの問題に対処するため,ProPagationとTransformerを改良したProPainterというフレームワークを提案する。
具体的には,画像と特徴ウォーピングの利点を併せ持つデュアルドメイン伝搬を導入し,グローバル対応を確実に活用する。
また,不要かつ冗長なトークンを捨てることで高効率を実現するマスク誘導スパースビデオトランスも提案する。
これらの部品により、ProPainterはPSNRで1.46dBの大差で先行技術より優れ、魅力ある効率を維持している。
関連論文リスト
- Hierarchical Separable Video Transformer for Snapshot Compressive Imaging [46.23615648331571]
HiSViT(Hierarchical Separable Video Transformer)は、時間的アグリゲーションのない再構成アーキテクチャである。
HiSViTは、CSS-MSAとGSM-FFN(Gated Self-Modulated Feed-Forward Network)の複数グループによって構築されている。
我々のメソッドは、同等または少ないパラメータと複雑さで、以前のメソッドを$!>!0.5$で上回ります。
論文 参考訳(メタデータ) (2024-07-16T17:35:59Z) - Blur-aware Spatio-temporal Sparse Transformer for Video Deblurring [14.839956958725883]
本稿では、browbfBSSTNet, textbfBlur-aware textbfStext-temporal textbfTransformer Networkを提案する。
提案したBSSTNetは、GoProやDVDのデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Decoupling Degradation and Content Processing for Adverse Weather Image
Restoration [79.59228846484415]
逆の気象画像復元は、雨、干し草、雪などの様々な気象の影響を受ける人々から、鮮明なイメージを復元する試みである。
従来の手法では、1つのネットワーク内で複数の気象タイプを処理できるが、これら2つのプロセス間の決定的な区別を無視し、復元された画像の品質を制限している。
本研究は,DDCNetと呼ばれる新しい悪天候画像復元手法を導入し,チャネル統計に基づく特徴レベルの劣化除去とコンテンツ復元を分離する。
論文 参考訳(メタデータ) (2023-12-08T12:26:38Z) - CNN Injected Transformer for Image Exposure Correction [20.282217209520006]
畳み込みに基づく以前の露光補正法は、しばしば画像の露光偏差を生じさせる。
本稿では,CNN と Transformer の個々の強度を同時に活用する CNN インジェクトトランス (CIT) を提案する。
露光補正のためのハイブリッドアーキテクチャ設計に加えて、空間コヒーレンスを改善し、潜在的な色偏差を補正するために、慎重に定式化された損失関数のセットを適用する。
論文 参考訳(メタデータ) (2023-09-08T14:53:00Z) - Burstormer: Burst Image Restoration and Enhancement Transformer [117.56199661345993]
シャッタープレスでは、現代のハンドヘルドカメラが高速に複数の画像をキャプチャし、それらをマージして単一の画像を生成する。
課題は、連続したイメージショットを適切に調整し、その補完的な情報をマージして高品質な出力を達成することである。
バーストラー(Burstormer)はバースト画像の復元と拡張のためのトランスフォーマーをベースとした新しいアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-03T17:58:44Z) - Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting [11.837764007052813]
本稿では,より効率的かつ効率的な映像インペイントを実現するためのフロー誘導トランス (FGT) を提案する。
FGT++は、既存のビデオインパインティングネットワークよりも優れていると実験的に評価されている。
論文 参考訳(メタデータ) (2023-01-24T14:44:44Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - U2-Former: A Nested U-shaped Transformer for Image Restoration [30.187257111046556]
U2-Formerと呼ばれる画像復元のための深く効果的なトランスフォーマーネットワークを提案する。
コア操作としてTransformerを使用して、ディープエンコーディングとデコード空間でイメージ復元を行うことができる。
論文 参考訳(メタデータ) (2021-12-04T08:37:04Z) - Burst Image Restoration and Enhancement [86.08546447144377]
バースト画像復元の目標は、複数のバーストフレームに補完的なキューを効果的に組み合わせ、高品質な出力を生成することである。
入力されたすべてのバーストフレームから補足情報を組み合わせてシームレスに情報を交換する,Emphpseudo-Burst機能セットを作成する。
提案手法は, バースト超解像および低照度画像強調タスクにおける技術性能の状況を示す。
論文 参考訳(メタデータ) (2021-10-07T17:58:56Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。