論文の概要: MTV-Inpaint: Multi-Task Long Video Inpainting
- arxiv url: http://arxiv.org/abs/2503.11412v1
- Date: Fri, 14 Mar 2025 13:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:05.364142
- Title: MTV-Inpaint: Multi-Task Long Video Inpainting
- Title(参考訳): MTV-Inpaint:マルチタスクロングビデオインペインティング
- Authors: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao,
- Abstract要約: ビデオの塗装は、ビデオ内の局所領域を変更し、空間的および時間的一貫性を確保する。
テキスト・ツー・ビデオ拡散モデル(T2V)の最近の進歩は、テキスト・ガイド・ビデオ・インペイントの道を開いた。
MTV-Inpaintは、従来のシーン補完と新しいオブジェクト挿入タスクの両方を扱えるマルチタスク・マルチタスク・インペインティング・フレームワークである。
- 参考スコア(独自算出の注目度): 30.963300199975656
- License:
- Abstract: Video inpainting involves modifying local regions within a video, ensuring spatial and temporal consistency. Most existing methods focus primarily on scene completion (i.e., filling missing regions) and lack the capability to insert new objects into a scene in a controllable manner. Fortunately, recent advancements in text-to-video (T2V) diffusion models pave the way for text-guided video inpainting. However, directly adapting T2V models for inpainting remains limited in unifying completion and insertion tasks, lacks input controllability, and struggles with long videos, thereby restricting their applicability and flexibility. To address these challenges, we propose MTV-Inpaint, a unified multi-task video inpainting framework capable of handling both traditional scene completion and novel object insertion tasks. To unify these distinct tasks, we design a dual-branch spatial attention mechanism in the T2V diffusion U-Net, enabling seamless integration of scene completion and object insertion within a single framework. In addition to textual guidance, MTV-Inpaint supports multimodal control by integrating various image inpainting models through our proposed image-to-video (I2V) inpainting mode. Additionally, we propose a two-stage pipeline that combines keyframe inpainting with in-between frame propagation, enabling MTV-Inpaint to effectively handle long videos with hundreds of frames. Extensive experiments demonstrate that MTV-Inpaint achieves state-of-the-art performance in both scene completion and object insertion tasks. Furthermore, it demonstrates versatility in derived applications such as multi-modal inpainting, object editing, removal, image object brush, and the ability to handle long videos. Project page: https://mtv-inpaint.github.io/.
- Abstract(参考訳): ビデオの塗装は、ビデオ内の局所領域を変更し、空間的および時間的一貫性を確保する。
既存のほとんどのメソッドは、主にシーン補完(すなわち、欠落した領域を埋めること)に焦点を当てており、新しいオブジェクトを制御可能な方法でシーンに挿入する能力がない。
幸いなことに、テキスト・ツー・ビデオ拡散モデル(T2V)の最近の進歩は、テキスト・ガイド付きビデオ・インペイントの道を開いた。
しかし、塗布用T2Vモデルへの直接適応は、完了タスクと挿入タスクの統一、入力制御性の欠如、長いビデオとの闘い、適用性と柔軟性の制限など、依然として制限されている。
これらの課題に対処するために,従来のシーン補完と新しいオブジェクト挿入タスクの両方を扱えるマルチタスク・マルチタスク・ビデオ・インペインティング・フレームワークであるMTV-Inpaintを提案する。
これらの異なるタスクを統一するために,T2V拡散U-Netにおける2分岐空間アテンション機構を設計し,シーン補完とオブジェクト挿入のシームレスな統合を可能にする。
テキスト誘導に加えて、MTV-Inpaintは、提案したイメージ・ツー・ビデオ(I2V)・インパインティング・モードを通じて、様々なイメージ・インパインティング・モデルを統合することでマルチモーダル・コントロールをサポートする。
さらに、キーフレームのインペイントとフレーム間の伝搬を組み合わせた2段階のパイプラインを提案し、MTV-Inpaintが数百フレームの長編動画を効果的に処理できるようにする。
大規模な実験により,MTV-Inpaintはシーン完了作業とオブジェクト挿入作業の両方において最先端の性能を達成することが示された。
さらに、マルチモーダル・インペイント、オブジェクトの編集、削除、画像オブジェクトのブラシ、長いビデオの処理など、派生したアプリケーションにおいて、汎用性を示す。
プロジェクトページ: https://mtv-inpaint.github.io/
関連論文リスト
- UniPaint: Unified Space-time Video Inpainting via Mixture-of-Experts [20.955898491009656]
UniPaintは、空間的時間的インパインティングを可能にする生成時空間ビデオインパインティングフレームワークである。
UniPaintは高品質で美的な結果をもたらし、さまざまなタスクにまたがって最高の結果とスケール設定を実現している。
論文 参考訳(メタデータ) (2024-12-09T09:45:14Z) - MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing [90.30646271720919]
新規ビュー合成(NVS)と3D生成は、最近顕著に改善されている。
我々はMVInpainterを提案し、3D編集を多視点2Dインペインティングタスクとして再フォーマットする。
MVInpainterは、スクラッチから完全に新しいビューを生成するのではなく、参照ガイダンスで複数のビューイメージを部分的に描き込む。
論文 参考訳(メタデータ) (2024-08-15T07:57:28Z) - InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models [46.587906540660455]
InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いて導入する。
InViは、フレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-15T17:55:09Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting [38.53807472111521]
我々は,複数の塗装タスクに優れる最初の高品質で多用途な塗装モデルであるPowerPaintを紹介する。
本稿では,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
我々は, 形状誘導型物体の塗布を制御可能とし, 形状誘導型アプリケーションにおけるモデルの適用性を高めるために, プロンプト技術を活用している。
論文 参考訳(メタデータ) (2023-12-06T16:34:46Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。