論文の概要: DiTPainter: Efficient Video Inpainting with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2504.15661v3
- Date: Mon, 19 May 2025 09:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.105968
- Title: DiTPainter: Efficient Video Inpainting with Diffusion Transformers
- Title(参考訳): DiTPainter: 拡散変換器を用いた効率的なビデオ塗装
- Authors: Xian Wu, Chang Liu,
- Abstract要約: Diffusion Transformer (DiT) を用いたエンド・ツー・エンドの映像インペイントモデル DiTPainter を提案する。
DiTPainterは、ビデオインペイント用に設計された効率的なトランスフォーマーネットワークを使用しており、大きな事前訓練されたモデルから初期化するのではなく、スクラッチからトレーニングされている。
実験により、DiTPainterは、高品質で時空間整合性の良い既存のビデオ塗装アルゴリズムよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 35.1896530415315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many existing video inpainting algorithms utilize optical flows to construct the corresponding maps and then propagate pixels from adjacent frames to missing areas by mapping. Despite the effectiveness of the propagation mechanism, they might encounter blurry and inconsistencies when dealing with inaccurate optical flows or large masks. Recently, Diffusion Transformer (DiT) has emerged as a revolutionary technique for video generation tasks. However, pretrained DiT models for video generation all contain a large amount of parameters, which makes it very time consuming to apply to video inpainting tasks. In this paper, we present DiTPainter, an end-to-end video inpainting model based on Diffusion Transformer (DiT). DiTPainter uses an efficient transformer network designed for video inpainting, which is trained from scratch instead of initializing from any large pretrained models. DiTPainter can address videos with arbitrary lengths and can be applied to video decaptioning and video completion tasks with an acceptable time cost. Experiments show that DiTPainter outperforms existing video inpainting algorithms with higher quality and better spatial-temporal consistency.
- Abstract(参考訳): 多くの既存のビデオ塗装アルゴリズムは、光学フローを利用して対応するマップを構築し、隣接するフレームから欠落した領域にマッピングすることでピクセルを伝播する。
伝搬機構の有効性にもかかわらず、不正確な光学フローや大きなマスクを扱う際に、ぼやけたり不整合に遭遇する可能性がある。
近年,Diffusion Transformer (DiT) がビデオ生成タスクの革命的手法として登場している。
しかし、ビデオ生成のための事前訓練されたDiTモデルは、すべて大量のパラメータを含んでいるため、ビデオインペイントタスクに適用するのに非常に時間がかかる。
本稿では,Diffusion Transformer (DiT) に基づくエンドツーエンドビデオインペイントモデルであるDiTPainterを提案する。
DiTPainterは、ビデオインペイント用に設計された効率的なトランスフォーマーネットワークを使用しており、大きな事前訓練されたモデルから初期化するのではなく、スクラッチからトレーニングされている。
DiTPainterは任意の長さでビデオに対処することができ、ビデオの切り離しやビデオ補完タスクに許容時間で適用することができる。
実験により、DiTPainterは、高品質で時空間整合性の良い既存のビデオ塗装アルゴリズムよりも優れていることが示された。
関連論文リスト
- FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - Towards Online Real-Time Memory-based Video Inpainting Transformers [95.90235034520167]
近年、ディープニューラルネットワーク、特にビジョントランスフォーマーの台頭により、塗装タスクは大幅に改善されている。
本稿では,冗長な計算を記憶・精算することで,既存のインペイント変換器を制約に適応するフレームワークを提案する。
最新のインペイントモデルでこのフレームワークを使用することで、毎秒20フレームを超える一貫したスループットで、優れたオンライン結果が得られます。
論文 参考訳(メタデータ) (2024-03-24T14:02:25Z) - TDViT: Temporal Dilated Video Transformer for Dense Video Tasks [35.16197118579414]
TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
論文 参考訳(メタデータ) (2024-02-14T15:41:07Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - ProPainter: Improving Propagation and Transformer for Video Inpainting [98.70898369695517]
フローベース伝播と計算変換器はビデオインテンポラルにおける2つの主流メカニズムである(VI)
我々は、画像と特徴のワープの利点を組み合わせた二重領域の伝搬を導入し、グローバルな対応を確実に活用する。
また,冗長なトークンを破棄することで高効率を実現するマスク誘導スパースビデオトランスも提案する。
論文 参考訳(メタデータ) (2023-09-07T17:57:29Z) - Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。