論文の概要: OutDreamer: Video Outpainting with a Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2506.22298v1
- Date: Fri, 27 Jun 2025 15:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.251875
- Title: OutDreamer: Video Outpainting with a Diffusion Transformer
- Title(参考訳): OutDreamer: 拡散変換器を使ったビデオのアウトペイント
- Authors: Linhao Zhong, Fan Li, Yi Huang, Jianzhuang Liu, Renjing Pei, Fenglong Song,
- Abstract要約: 本稿では,DiTをベースとした映像出力フレームワークであるOutDreamerを紹介する。
マスク情報を動的に統合するマスク駆動型自己注意層を提案する。
長時間の画質向上のために、我々は、欠落したコンテンツを反復的に生成するクロスビデオクリップ精細機を採用している。
- 参考スコア(独自算出の注目度): 37.512451098188635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video outpainting is a challenging task that generates new video content by extending beyond the boundaries of an original input video, requiring both temporal and spatial consistency. Many state-of-the-art methods utilize latent diffusion models with U-Net backbones but still struggle to achieve high quality and adaptability in generated content. Diffusion transformers (DiTs) have emerged as a promising alternative because of their superior performance. We introduce OutDreamer, a DiT-based video outpainting framework comprising two main components: an efficient video control branch and a conditional outpainting branch. The efficient video control branch effectively extracts masked video information, while the conditional outpainting branch generates missing content based on these extracted conditions. Additionally, we propose a mask-driven self-attention layer that dynamically integrates the given mask information, further enhancing the model's adaptability to outpainting tasks. Furthermore, we introduce a latent alignment loss to maintain overall consistency both within and between frames. For long video outpainting, we employ a cross-video-clip refiner to iteratively generate missing content, ensuring temporal consistency across video clips. Extensive evaluations demonstrate that our zero-shot OutDreamer outperforms state-of-the-art zero-shot methods on widely recognized benchmarks.
- Abstract(参考訳): ビデオのアウトペイントは、元の入力ビデオの境界を超えて時間的・空間的整合性を必要とすることによって、新しいビデオコンテンツを生成する難しいタスクである。
最先端の多くの手法は、U-Netバックボーンを用いた潜時拡散モデルを用いるが、生成したコンテンツの品質と適応性を達成するのに依然として苦労している。
拡散変圧器(DiT)は優れた性能のため、将来性のある代替品として登場している。
本稿では,2つの主要コンポーネント – 効率的なビデオ制御ブランチと条件付きアウトペイントブランチ – で構成される,DiTベースのビデオ出力フレームワークであるOutDreamerを紹介する。
効率的な映像制御部は、マスク付き映像情報を効果的に抽出し、条件付き露光部は、これらの抽出条件に基づいて欠落コンテンツを生成する。
さらに,与えられたマスク情報を動的に統合し,タスクの適応性を向上するマスク駆動型自己保持層を提案する。
さらに、フレーム内およびフレーム間の全体的な一貫性を維持するために、遅延アライメント損失を導入する。
長時間の画質向上には、ビデオクリップ間の時間的一貫性を確保するために、繰り返し欠落コンテンツを生成するクロスビデオクリップ精細機を用いる。
広範に評価されたベンチマークでは、ゼロショットOutDreamerは最先端のゼロショット法よりも優れていた。
関連論文リスト
- VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。
マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。
また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文 参考訳(メタデータ) (2025-03-07T17:59:46Z) - Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。
我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。
提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation [44.92712228326116]
ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。
入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。
MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
論文 参考訳(メタデータ) (2024-03-20T16:53:45Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。