論文の概要: Unified Long Video Inpainting and Outpainting via Overlapping High-Order Co-Denoising
- arxiv url: http://arxiv.org/abs/2511.03272v1
- Date: Wed, 05 Nov 2025 08:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.383186
- Title: Unified Long Video Inpainting and Outpainting via Overlapping High-Order Co-Denoising
- Title(参考訳): 重なり合う高次共生による一貫したロングビデオ塗装とアウトペイント
- Authors: Shuangquan Lyu, Steven Mao, Yue Ma,
- Abstract要約: 本稿では,テキストからビデオへの拡散モデルを拡張する長大な映像のインペイントとアウトペイントのための,新しい統一的アプローチを提案する。
本手法はLoRAを利用して,アリババのWan 2.1のような大規模なトレーニング済みビデオ拡散モデルをマスク付き領域ビデオ合成のために効率的に微調整する。
固定長クリップや縫製アーティファクトに苦労する以前の作業とは対照的に,本システムでは,目立った縫合やドリフトを伴わずにビデオ生成や編集を任意に行うことができる。
- 参考スコア(独自算出の注目度): 3.6045678816599387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long videos remains a fundamental challenge, and achieving high controllability in video inpainting and outpainting is particularly demanding. To address both of these challenges simultaneously and achieve controllable video inpainting and outpainting for long video clips, we introduce a novel and unified approach for long video inpainting and outpainting that extends text-to-video diffusion models to generate arbitrarily long, spatially edited videos with high fidelity. Our method leverages LoRA to efficiently fine-tune a large pre-trained video diffusion model like Alibaba's Wan 2.1 for masked region video synthesis, and employs an overlap-and-blend temporal co-denoising strategy with high-order solvers to maintain consistency across long sequences. In contrast to prior work that struggles with fixed-length clips or exhibits stitching artifacts, our system enables arbitrarily long video generation and editing without noticeable seams or drift. We validate our approach on challenging inpainting/outpainting tasks including editing or adding objects over hundreds of frames and demonstrate superior performance to baseline methods like Wan 2.1 model and VACE in terms of quality (PSNR/SSIM), and perceptual realism (LPIPS). Our method enables practical long-range video editing with minimal overhead, achieved a balance between parameter efficient and superior performance.
- Abstract(参考訳): 長いビデオを生成することは依然として根本的な課題であり、ビデオのインペイントとアウトペイントにおいて高いコントロール性を達成することが特に要求される。
両課題を同時に解決し,長いビデオクリップに対する制御可能な映像のインペイントとアウトペイントを実現するために,テキスト間拡散モデルを拡張して任意の長さの空間的に編集された動画を忠実に生成する,長ビデオのインペイントとアウトペイントのための新しい統一的アプローチを提案する。
提案手法はLoRAを利用して,アリババのWan 2.1のような大規模トレーニング済みビデオ拡散モデルのマスク付き領域ビデオ合成を効率的に微調整し,高次ソルバと重なり合う時間的コデノゲーション戦略を用いて,長いシーケンス間の一貫性を維持する。
固定長クリップや縫製アーティファクトに苦労する以前の作業とは対照的に,本システムでは,目立った縫合やドリフトを伴わずに,任意の長さのビデオ生成と編集が可能である。
我々は、数百のフレームにオブジェクトを編集したり、追加したりといった、難解なインペイント/アウトペイントタスクに対するアプローチを検証するとともに、品質(PSNR/SSIM)や知覚リアリズム(LPIPS)の観点から、Wan 2.1モデルやVACEのようなベースライン手法よりも優れた性能を示す。
提案手法は,パラメータの効率と性能のバランスを保ちながら,最小限のオーバーヘッドで,実用的な長距離ビデオ編集を可能にする。
関連論文リスト
- VidSplice: Towards Coherent Video Inpainting via Explicit Spaced Frame Guidance [57.57195766748601]
VidSpliceは、テンポラリな手口でペンキを塗るプロセスをガイドする新しいフレームワークである。
VidSpliceは様々な映像のインパインティングシナリオで競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-10-24T13:44:09Z) - OutDreamer: Video Outpainting with a Diffusion Transformer [37.512451098188635]
本稿では,DiTをベースとした映像出力フレームワークであるOutDreamerを紹介する。
マスク情報を動的に統合するマスク駆動型自己注意層を提案する。
長時間の画質向上のために、我々は、欠落したコンテンツを反復的に生成するクロスビデオクリップ精細機を採用している。
論文 参考訳(メタデータ) (2025-06-27T15:08:54Z) - VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。
マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。
また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文 参考訳(メタデータ) (2025-03-07T17:59:46Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。