論文の概要: UniPaint: Unified Space-time Video Inpainting via Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2412.06340v1
- Date: Mon, 09 Dec 2024 09:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:34.532062
- Title: UniPaint: Unified Space-time Video Inpainting via Mixture-of-Experts
- Title(参考訳): UniPaint:Mixture-of-Expertsによる統合された時空ビデオの塗装
- Authors: Zhen Wan, Yue Ma, Chenyang Qi, Zhiheng Liu, Tao Gui,
- Abstract要約: UniPaintは、空間的時間的インパインティングを可能にする生成時空間ビデオインパインティングフレームワークである。
UniPaintは高品質で美的な結果をもたらし、さまざまなタスクにまたがって最高の結果とスケール設定を実現している。
- 参考スコア(独自算出の注目度): 20.955898491009656
- License:
- Abstract: In this paper, we present UniPaint, a unified generative space-time video inpainting framework that enables spatial-temporal inpainting and interpolation. Different from existing methods that treat video inpainting and video interpolation as two distinct tasks, we leverage a unified inpainting framework to tackle them and observe that these two tasks can mutually enhance synthesis performance. Specifically, we first introduce a plug-and-play space-time video inpainting adapter, which can be employed in various personalized models. The key insight is to propose a Mixture of Experts (MoE) attention to cover various tasks. Then, we design a spatial-temporal masking strategy during the training stage to mutually enhance each other and improve performance. UniPaint produces high-quality and aesthetically pleasing results, achieving the best quantitative results across various tasks and scale setups. The code and checkpoints will be available soon.
- Abstract(参考訳): 本論文では,空間的空間的インペイントと補間を可能にする一元的時空間ビデオインペイントフレームワークUniPaintを提案する。
ビデオ・インパインティングとビデオ補間を2つの異なるタスクとして扱う既存の方法とは異なり、統合されたインパインティング・フレームワークを活用し、これら2つのタスクが相互に合成性能を向上させることを観察する。
具体的には、まず、様々なパーソナライズされたモデルで使用できる、プラグアンドプレイの時空間ビデオインペインティングアダプタを導入する。
重要な洞察は、様々なタスクをカバーするために、Mixture of Experts (MoE) の注意を向けることである。
そして,訓練段階における空間的マスキング戦略を設計し,相互に強化し,性能を向上させる。
UniPaintは高品質で美的な結果をもたらし、様々なタスクで最高の定量化とスケール設定を実現している。
コードとチェックポイントは近く提供される。
関連論文リスト
- UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Mumpy: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection [41.4800103693756]
本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器(em MumPy)について紹介する。
提案手法は, 空間的・時間的手がかりの様々な協調関係を抽出するために, 新たに設計された多面的時間的視点を用いて, 変形可能なウィンドウベース時間的対話モジュールを導入する。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
論文 参考訳(メタデータ) (2024-04-17T03:56:28Z) - Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation [44.92712228326116]
ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。
入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。
MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
論文 参考訳(メタデータ) (2024-03-20T16:53:45Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - Cylin-Painting: Seamless {360\textdegree} Panoramic Image Outpainting
and Beyond [136.18504104345453]
塗り絵と塗り絵の間に有意義な協調関係を持つキリン塗り絵の枠組みを提示する。
提案アルゴリズムは、オブジェクト検出、深さ推定、画像超解像などの他のパノラマ視覚タスクに効果的に拡張できる。
論文 参考訳(メタデータ) (2022-04-18T21:18:49Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。