論文の概要: ANYPORTAL: Zero-Shot Consistent Video Background Replacement
- arxiv url: http://arxiv.org/abs/2509.07472v1
- Date: Tue, 09 Sep 2025 07:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.216108
- Title: ANYPORTAL: Zero-Shot Consistent Video Background Replacement
- Title(参考訳): ANYportal: ゼロショットの一貫性のあるビデオ背景のリプレース
- Authors: Wenshuo Gao, Xicheng Lan, Shuai Yang,
- Abstract要約: ANYPORTALはビデオバックグラウンド置換のためのゼロショットフレームワークである。
ビデオ拡散モデルの時間的先行と、ゼロショット設定における画像拡散モデルのリライト機能を統合する。
これは、前景の一貫性と時間的コヒーレントなリライトを達成するという課題を克服する。
- 参考スコア(独自算出の注目度): 8.690698677022992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancements in video generation technology, creating high-quality videos that precisely align with user intentions remains a significant challenge. Existing methods often fail to achieve fine-grained control over video details, limiting their practical applicability. We introduce ANYPORTAL, a novel zero-shot framework for video background replacement that leverages pre-trained diffusion models. Our framework collaboratively integrates the temporal prior of video diffusion models with the relighting capabilities of image diffusion models in a zero-shot setting. To address the critical challenge of foreground consistency, we propose a Refinement Projection Algorithm, which enables pixel-level detail manipulation to ensure precise foreground preservation. ANYPORTAL is training-free and overcomes the challenges of achieving foreground consistency and temporally coherent relighting. Experimental results demonstrate that ANYPORTAL achieves high-quality results on consumer-grade GPUs, offering a practical and efficient solution for video content creation and editing.
- Abstract(参考訳): ビデオ生成技術の急速な進歩にもかかわらず、ユーザの意図と正確に一致した高品質なビデオを作ることは、依然として大きな課題だ。
既存の手法は、しばしばビデオの詳細をきめ細かな制御に失敗し、実用性を制限する。
我々は,事前学習した拡散モデルを活用するビデオバックグラウンド置換のための新しいゼロショットフレームワークであるANYPORTALを紹介する。
本フレームワークは,ビデオ拡散モデルの時間的先行と,ゼロショット設定における画像拡散モデルのリライト機能とを協調的に統合する。
前景の整合性に関する重要な課題を解決するために,画素レベルの細部操作を可能とし,精密な前景保存を実現するRefinement Projection Algorithmを提案する。
ANYPORTALはトレーニングフリーであり、前景の一貫性と時間的コヒーレントなリライティングを達成するという課題を克服する。
実験により、ANYPORTALはコンシューマグレードのGPU上で高品質な結果を達成し、ビデオコンテンツの作成と編集のための実用的で効率的なソリューションを提供することを示した。
関連論文リスト
- FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [34.887298437323295]
FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。
本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。
実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
論文 参考訳(メタデータ) (2025-06-06T10:00:39Z) - DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion [4.863177884263436]
本稿では,事前学習した拡散モデルを用いた高速FPSビデオ生成のためのトレーニング不要な手法を提案する。
我々の手法であるDiffuseSlideは、低FPSビデオから鍵フレームを活用する新しいパイプラインを導入し、ノイズリジェクションやスライディングウインドウ遅延デノイングといった革新的な手法を適用した。
広範にわたる実験により,提案手法は映像品質を著しく改善し,時間的コヒーレンスと空間的忠実度を向上することを示した。
論文 参考訳(メタデータ) (2025-06-02T09:12:41Z) - Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。
提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-23T06:48:31Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing [3.6344789837383145]
我々は,高品質な自然な標準画像を生成する前に,ハイブリッドな変形場と拡散を統合したビデオ編集フレームワークであるNaRCanを提案する。
提案手法は,グローバルな動きをモデル化するためにホモグラフィを使用し,局所的な残留変形を捉えるために多層パーセプトロン(MLP)を用いる。
提案手法は,様々なビデオ編集タスクにおいて既存の手法よりも優れ,一貫性と高品質な編集ビデオシーケンスを生成する。
論文 参考訳(メタデータ) (2024-06-10T17:59:46Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。