論文の概要: EraserDiT: Fast Video Inpainting with Diffusion Transformer Model
- arxiv url: http://arxiv.org/abs/2506.12853v1
- Date: Sun, 15 Jun 2025 13:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.003129
- Title: EraserDiT: Fast Video Inpainting with Diffusion Transformer Model
- Title(参考訳): EraserDiT:拡散変圧器モデルによる高速ビデオ塗装
- Authors: Jie Liu, Zheng Hui,
- Abstract要約: 本稿では拡散変換器(DiT)を利用した新しい映像塗装手法を提案する。
DiTは長期の時間的一貫性を維持するために拡散モデルと変圧器アーキテクチャの利点を相乗的に組み合わせている。
ビデオを完成させるのに180秒しかかからず、解像度は1080 1920$で121フレームで、アクセラレーションは一切行わない。
- 参考スコア(独自算出の注目度): 6.616553739135743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object removal and inpainting are critical tasks in the fields of computer vision and multimedia processing, aimed at restoring missing or corrupted regions in video sequences. Traditional methods predominantly rely on flow-based propagation and spatio-temporal Transformers, but these approaches face limitations in effectively leveraging long-term temporal features and ensuring temporal consistency in the completion results, particularly when dealing with large masks. Consequently, performance on extensive masked areas remains suboptimal. To address these challenges, this paper introduces a novel video inpainting approach leveraging the Diffusion Transformer (DiT). DiT synergistically combines the advantages of diffusion models and transformer architectures to maintain long-term temporal consistency while ensuring high-quality inpainting results. We propose a Circular Position-Shift strategy to further enhance long-term temporal consistency during the inference stage. Additionally, the proposed method automatically detects objects within videos, interactively removes specified objects, and generates corresponding prompts. In terms of processing speed, it takes only 180 seconds (testing on one NVIDIA A100 GPU) to complete a video with a resolution of $1080 \times 1920$ with 121 frames without any acceleration method. Experimental results indicate that the proposed method demonstrates superior performance in content fidelity, texture restoration, and temporal consistency. Project page: https://jieliu95.github.io/EraserDiT_demo.
- Abstract(参考訳): ビデオオブジェクトの除去とインペインティングは、コンピュータビジョンとマルチメディア処理の分野で重要なタスクであり、ビデオシーケンスの欠落した領域や破損した領域の復元を目的としている。
従来の手法は主にフローベースの伝搬と時空間変圧器に頼っているが、これらの手法は長期の時間的特徴を効果的に活用し、特に大きなマスクを扱う場合、完了結果において時間的一貫性を確保するという制限に直面している。
その結果、広範囲のマスキングエリアでのパフォーマンスは、依然として最適以下である。
これらの課題に対処するために,Diffusion Transformer (DiT) を利用した新しいビデオ塗装手法を提案する。
DiTは、拡散モデルとトランスフォーマーアーキテクチャの利点を相乗的に組み合わせて、長期的な時間的一貫性を維持しつつ、高品質な塗装結果を保証する。
推論段階における長期的時間的整合性をさらに高めるための循環位置シフト戦略を提案する。
さらに,提案手法はビデオ内のオブジェクトを自動的に検出し,対話的に特定オブジェクトを除去し,対応するプロンプトを生成する。
処理速度は180秒(NVIDIA A100 GPUを1つ試す)で、解像度は1080 \times 1920$121フレームで、アクセラレーションは一切行わない。
実験結果から, 本手法は, 内容の忠実度, テクスチャ復元, 時間的整合性において優れた性能を示すことが示された。
プロジェクトページ: https://jieliu95.github.io/EraserDiT_demo
関連論文リスト
- DiTPainter: Efficient Video Inpainting with Diffusion Transformers [35.1896530415315]
Diffusion Transformer (DiT) を用いたエンド・ツー・エンドの映像インペイントモデル DiTPainter を提案する。
DiTPainterは、ビデオインペイント用に設計された効率的なトランスフォーマーネットワークを使用しており、大きな事前訓練されたモデルから初期化するのではなく、スクラッチからトレーニングされている。
実験により、DiTPainterは、高品質で時空間整合性の良い既存のビデオ塗装アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-22T07:36:45Z) - SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - TDViT: Temporal Dilated Video Transformer for Dense Video Tasks [35.16197118579414]
TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
論文 参考訳(メタデータ) (2024-02-14T15:41:07Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。