論文の概要: Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation
- arxiv url: http://arxiv.org/abs/2403.13745v1
- Date: Wed, 20 Mar 2024 16:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:08:57.397550
- Title: Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation
- Title(参考訳): Be-Your-Outpainter: 入力特化適応によるビデオ出力のマスタリング
- Authors: Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li,
- Abstract要約: ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。
入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。
MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
- 参考スコア(独自算出の注目度): 44.92712228326116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video outpainting is a challenging task, aiming at generating video content outside the viewport of the input video while maintaining inter-frame and intra-frame consistency. Existing methods fall short in either generation quality or flexibility. We introduce MOTIA Mastering Video Outpainting Through Input-Specific Adaptation, a diffusion-based pipeline that leverages both the intrinsic data-specific patterns of the source video and the image/video generative prior for effective outpainting. MOTIA comprises two main phases: input-specific adaptation and pattern-aware outpainting. The input-specific adaptation phase involves conducting efficient and effective pseudo outpainting learning on the single-shot source video. This process encourages the model to identify and learn patterns within the source video, as well as bridging the gap between standard generative processes and outpainting. The subsequent phase, pattern-aware outpainting, is dedicated to the generalization of these learned patterns to generate outpainting outcomes. Additional strategies including spatial-aware insertion and noise travel are proposed to better leverage the diffusion model's generative prior and the acquired video patterns from source videos. Extensive evaluations underscore MOTIA's superiority, outperforming existing state-of-the-art methods in widely recognized benchmarks. Notably, these advancements are achieved without necessitating extensive, task-specific tuning.
- Abstract(参考訳): フレーム間の一貫性とフレーム内一貫性を維持しながら、入力ビデオのビューポート外でビデオコンテンツを生成することを目的としている。
既存のメソッドは、生成品質または柔軟性のいずれかで不足する。
入力-特定適応を通したMOTIAマスタリングビデオアウトペイントについて紹介する。これは拡散に基づくパイプラインで、ソースビデオの固有のデータ固有のパターンと、効果的なアウトペイントに先立つ画像/ビデオ生成の両方を活用する。
MOTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
入力固有の適応フェーズは、ワンショットソースビデオ上で、効率的で効果的な擬似露光学習を行う。
このプロセスは、モデルにソースビデオ内のパターンを特定し、学習させ、標準生成プロセスとアウトペイントの間のギャップを埋める。
その後のフェーズであるパターン認識のアウトパインティングは、これらの学習パターンの一般化に特化して、アウトパインティング結果を生成する。
空間認識挿入やノイズトラベルなどの追加戦略が提案され、拡散モデルの生成前とソースビデオから取得したビデオパターンをよりよく活用する。
大規模な評価はMOTIAの優位性を強調し、広く認識されているベンチマークにおいて既存の最先端の手法よりも優れている。
特に、これらの進歩はタスク固有の広範囲なチューニングを必要とせずに達成される。
関連論文リスト
- Semantically Consistent Video Inpainting with Conditional Diffusion Models [16.42354856518832]
本稿では,他のフレームに存在しない新しいコンテンツの合成を必要とする問題を解くための枠組みを提案する。
提案手法は, 空間的, 時間的, 意味論的に提供された文脈に整合した, 多様な, 高品質なインパインティングを生成し, 新たなコンテンツを合成することができることを示す。
論文 参考訳(メタデータ) (2024-04-30T23:49:26Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Flow-Guided Diffusion for Video Inpainting [15.478104117672803]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文 参考訳(メタデータ) (2023-11-26T17:48:48Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Infusion: Internal Diffusion for Video Inpainting [4.8201607588546]
拡散モデルは、画像やビデオを含む複雑なデータ分散をモデル化する際、驚くべき結果を示している。
ビデオインペイントの場合,ビデオの自己類似性が高いため,拡散モデルのトレーニングはインペイントに限定することができる。
われわれはこの手法を「Infusion」と呼んでいる。
論文 参考訳(メタデータ) (2023-11-02T08:55:11Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。