論文の概要: VIP: Video Inpainting Pipeline for Real World Human Removal
- arxiv url: http://arxiv.org/abs/2504.03041v1
- Date: Thu, 03 Apr 2025 21:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:26.095391
- Title: VIP: Video Inpainting Pipeline for Real World Human Removal
- Title(参考訳): VIP: リアルな人間の除去のためのビデオ塗布パイプライン
- Authors: Huiming Sun, Yikang Li, Kangning Yang, Ruineng Li, Daitao Xing, Yangbo Xie, Lan Fu, Kaiyu Zhang, Ming Chen, Jiaming Ding, Jiang Geng, Jie Cai, Zibo Meng, Chiuman Ho,
- Abstract要約: VIP (Video Inpainting Pipeline) は、現実世界の人間除去アプリケーションのための、新規な無作為なビデオインパインティングフレームワークである。
VIPはモーションモジュールによる最先端のテキスト・トゥ・ビデオモデルを強化し、潜伏空間におけるプログレッシブ・デノーミングのために変分オートエンコーダ(VAE)を使用する。
実世界の様々なシナリオにおいて,VIPは時間的一貫性と視覚的忠実性に優れることを示した。
- 参考スコア(独自算出の注目度): 18.28941024012882
- License:
- Abstract: Inpainting for real-world human and pedestrian removal in high-resolution video clips presents significant challenges, particularly in achieving high-quality outcomes, ensuring temporal consistency, and managing complex object interactions that involve humans, their belongings, and their shadows. In this paper, we introduce VIP (Video Inpainting Pipeline), a novel promptless video inpainting framework for real-world human removal applications. VIP enhances a state-of-the-art text-to-video model with a motion module and employs a Variational Autoencoder (VAE) for progressive denoising in the latent space. Additionally, we implement an efficient human-and-belongings segmentation for precise mask generation. Sufficient experimental results demonstrate that VIP achieves superior temporal consistency and visual fidelity across diverse real-world scenarios, surpassing state-of-the-art methods on challenging datasets. Our key contributions include the development of the VIP pipeline, a reference frame integration technique, and the Dual-Fusion Latent Segment Refinement method, all of which address the complexities of inpainting in long, high-resolution video sequences.
- Abstract(参考訳): 高解像度ビデオクリップにおける現実世界の人間と歩行者の除去のための塗装は、特に高品質な成果の達成、時間的一貫性の確保、人間、所有物、およびそれらの影を含む複雑なオブジェクト間の相互作用の管理において重要な課題を示す。
本稿では, VIP (Video Inpainting Pipeline) について紹介する。
VIPはモーションモジュールによる最先端のテキスト・トゥ・ビデオモデルを強化し、潜伏空間におけるプログレッシブ・デノーミングのために変分オートエンコーダ(VAE)を使用する。
さらに,マスク生成の精度向上のために,効率的な人間とベランディングのセグメンテーションを実装した。
十分な実験結果から、VIPは様々な実世界のシナリオにおいて優れた時間的一貫性と視覚的忠実性を達成し、挑戦的なデータセットに対する最先端の手法を超越していることが示されている。
我々の主な貢献は、VIPパイプラインの開発、参照フレーム統合技術、Dual-Fusion Latent Segment Refinement法である。
関連論文リスト
- SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文 参考訳(メタデータ) (2025-02-15T16:08:40Z) - Imit Diff: Semantics Guided Diffusion Transformer with Dual Resolution Fusion for Imitation Learning [26.018598352491935]
擬似学習のための二分解能融合型セマンティック誘導拡散変圧器Imit Diffを紹介する。
提案手法では,視覚言語基礎モデルからの事前知識を活用して,高レベルの意味的命令をピクセルレベルの視覚的ローカライゼーションに変換する。
本稿では, エージェント制御におけるリアルタイム性能と動作のスムーズさを改善するために, 拡散トランスフォーマーアーキテクチャにおける一貫性ポリシーの実装を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:03:57Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - DiffMVR: Diffusion-based Automated Multi-Guidance Video Restoration [10.637125300701795]
拡散型ビデオレベルの塗装モデルDiffMVRを提案する。
提案手法では,動的二重誘導画像プロンプトシステムを導入し,適応参照フレームを利用して塗装プロセスのガイドを行う。
これにより、ビデオフレーム間の微細な詳細と滑らかな遷移の両方をキャプチャし、塗装方向を正確に制御し、難易度の高い動的環境における復元精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-27T20:43:35Z) - DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。
そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。
本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文 参考訳(メタデータ) (2024-08-14T11:53:40Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - DiffuVST: Narrating Fictional Scenes with Global-History-Guided
Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。
一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。
本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文 参考訳(メタデータ) (2023-12-12T08:40:38Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - VIP: Towards Universal Visual Reward and Representation via
Value-Implicit Pre-Training [45.07155397964233]
リワードと表現学習は、知覚的な観察からロボット操作スキルの拡大を学ぶための、2つの長年の課題である。
本稿では,ロボット作業に対して高密度でスムーズな報酬関数を生成可能な,自己教師付き事前学習型視覚表現であるVIPを紹介する。
VIPは、簡単な$textbffew-shot$ offline RLを、20行以内の現実世界のロボットタスクのスイートで有効にすることができる。
論文 参考訳(メタデータ) (2022-09-30T18:14:07Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。