論文の概要: Deficiency-Aware Masked Transformer for Video Inpainting
- arxiv url: http://arxiv.org/abs/2307.08629v1
- Date: Mon, 17 Jul 2023 16:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 12:06:09.508712
- Title: Deficiency-Aware Masked Transformer for Video Inpainting
- Title(参考訳): ビデオインペインティング用欠陥認識マスク変圧器
- Authors: Yongsheng Yu, Heng Fan, Libo Zhang
- Abstract要約: DMT (Deficiency-aware Masked Transformer) と呼ばれるデュアルモダリティ互換のインペイントフレームワークを導入する。
本稿では,Deficiency-aware Masked Transformer (DMT) という,両モード互換な塗装フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.375503091661873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video inpainting methods have made remarkable progress by utilizing
explicit guidance, such as optical flow, to propagate cross-frame pixels.
However, there are cases where cross-frame recurrence of the masked video is
not available, resulting in a deficiency. In such situation, instead of
borrowing pixels from other frames, the focus of the model shifts towards
addressing the inverse problem. In this paper, we introduce a
dual-modality-compatible inpainting framework called Deficiency-aware Masked
Transformer (DMT), which offers three key advantages. Firstly, we pretrain a
image inpainting model DMT_img serve as a prior for distilling the video model
DMT_vid, thereby benefiting the hallucination of deficiency cases. Secondly,
the self-attention module selectively incorporates spatiotemporal tokens to
accelerate inference and remove noise signals. Thirdly, a simple yet effective
Receptive Field Contextualizer is integrated into DMT, further improving
performance. Extensive experiments conducted on YouTube-VOS and DAVIS datasets
demonstrate that DMT_vid significantly outperforms previous solutions. The code
and video demonstrations can be found at github.com/yeates/DMT.
- Abstract(参考訳): 近年の映像のインペイント手法は,光フローなどの明示的なガイダンスを利用して,クロスフレーム画素の普及に成功している。
しかし、マスク付きビデオのクロスフレーム再生が不可能な場合もあり、結果として欠落する。
このような状況では、他のフレームからピクセルを借りる代わりに、モデルの焦点は逆問題への対処へとシフトする。
本稿では,2つの長所を提供するDeficiency-aware Masked Transformer (DMT) という,両モード互換な塗装フレームワークを提案する。
まず,DMT_imgはビデオモデルのDMT_vidを蒸留する前駆体として,画像塗布モデルDMT_imgを事前訓練する。
第2に、自己アテンションモジュールは、推論を加速しノイズ信号を除去するために時空間トークンを選択的に組み込む。
第三に、単純で効果的な受容場コンテキスト化器がDMTに統合され、パフォーマンスがさらに向上する。
YouTube-VOSとDAVISデータセットで実施された大規模な実験は、DMT_vidが従来のソリューションよりも大幅に優れていることを示した。
コードとビデオのデモはgithub.com/yeates/DMTで見ることができる。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models [94.24861019513462]
TRIPは画像間拡散パラダイムの新しいレシピである。
静的画像から派生した画像ノイズをピボットして、フレーム間の関係推論を共同でトリガーする。
WebVid-10M、DTDB、MSR-VTTデータセットに関する大規模な実験は、TRIPの有効性を示している。
論文 参考訳(メタデータ) (2024-03-25T17:59:40Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Spatiotemporal Self-attention Modeling with Temporal Patch Shift for
Action Recognition [34.98846882868107]
映像に基づく行動認識のための変換器における3次元自己認識を効率的に行うための時間的パッチシフト(TPS)手法を提案する。
その結果,2次元自己注意とほぼ同じ複雑さとコストで3次元自己注意メモリを計算できることがわかった。
論文 参考訳(メタデータ) (2022-07-27T02:47:07Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。