論文の概要: Towards Online Real-Time Memory-based Video Inpainting Transformers
- arxiv url: http://arxiv.org/abs/2403.16161v1
- Date: Sun, 24 Mar 2024 14:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:15:57.971498
- Title: Towards Online Real-Time Memory-based Video Inpainting Transformers
- Title(参考訳): リアルタイムビデオインペインティングトランスの実現に向けて
- Authors: Guillaume Thiry, Hao Tang, Radu Timofte, Luc Van Gool,
- Abstract要約: 近年、ディープニューラルネットワーク、特にビジョントランスフォーマーの台頭により、塗装タスクは大幅に改善されている。
本稿では,冗長な計算を記憶・精算することで,既存のインペイント変換器を制約に適応するフレームワークを提案する。
最新のインペイントモデルでこのフレームワークを使用することで、毎秒20フレームを超える一貫したスループットで、優れたオンライン結果が得られます。
- 参考スコア(独自算出の注目度): 95.90235034520167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video inpainting tasks have seen significant improvements in recent years with the rise of deep neural networks and, in particular, vision transformers. Although these models show promising reconstruction quality and temporal consistency, they are still unsuitable for live videos, one of the last steps to make them completely convincing and usable. The main limitations are that these state-of-the-art models inpaint using the whole video (offline processing) and show an insufficient frame rate. In our approach, we propose a framework to adapt existing inpainting transformers to these constraints by memorizing and refining redundant computations while maintaining a decent inpainting quality. Using this framework with some of the most recent inpainting models, we show great online results with a consistent throughput above 20 frames per second. The code and pretrained models will be made available upon acceptance.
- Abstract(参考訳): 近年、ディープニューラルネットワーク、特にビジョントランスフォーマーの台頭により、ビデオインペイントタスクは大幅に改善されている。
これらのモデルは、有望な復元品質と時間的整合性を示しているが、ライブビデオには相変わらず適していない。
主な制限は、これらの最先端モデルがビデオ全体(オフライン処理)を使用し、フレームレートが不十分であることである。
提案手法では,従来のインペインティング・トランスフォーマーをこれらの制約に適応させ,冗長な計算を記憶・精算し,良好なインペインティング・品質を維持しながら適用する枠組みを提案する。
最新のインペイントモデルでこのフレームワークを使用することで、毎秒20フレームを超える一貫したスループットで、優れたオンライン結果が得られます。
コードと事前訓練されたモデルは、受け入れ次第利用可能になる。
関連論文リスト
- Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - Learning Prior Feature and Attention Enhanced Image Inpainting [63.21231753407192]
本稿では,事前学習に基づくMasked AutoEncoder(MAE)を塗装モデルに組み込む。
マスク付き領域とマスキングされていない領域間の長距離依存性をより学習させるために,MAE の注意点を用いた手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T04:32:53Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z) - Latent Video Transformer [30.0340468756089]
いくつかのビデオ生成モデルは、並列トレーニングのために最大512の処理ユニットを必要とする。
本研究では,潜在空間の力学をモデル化することでこの問題に対処する。
本稿では,BAIR Robot Pushing Kinetics-600データセットの性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T17:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。