論文の概要: Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence
- arxiv url: http://arxiv.org/abs/2512.03905v1
- Date: Wed, 03 Dec 2025 15:51:11 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:07:14.249363
- Title: Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence
- Title(参考訳): フレーム空間時間対応によるゼロショット映像翻訳と編集
- Authors: Shuai Yang, Junxin Lin, Yifan Zhou, Ziwei Liu, Chen Change Loy,
- Abstract要約: フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
- 参考スコア(独自算出の注目度): 81.82643953694485
- License:
- Abstract: The remarkable success in text-to-image diffusion models has motivated extensive investigation of their potential for video applications. Zero-shot techniques aim to adapt image diffusion models for videos without requiring further model training. Recent methods largely emphasize integrating inter-frame correspondence into attention mechanisms. However, the soft constraint applied to identify the valid features to attend is insufficient, which could lead to temporal inconsistency. In this paper, we present FRESCO, which integrates intra-frame correspondence with inter-frame correspondence to formulate a more robust spatial-temporal constraint. This enhancement ensures a consistent transformation of semantically similar content between frames. Our method goes beyond attention guidance to explicitly optimize features, achieving high spatial-temporal consistency with the input video, significantly enhancing the visual coherence of manipulated videos. We verify FRESCO adaptations on two zero-shot tasks of video-to-video translation and text-guided video editing. Comprehensive experiments demonstrate the effectiveness of our framework in generating high-quality, coherent videos, highlighting a significant advance over current zero-shot methods.
- Abstract(参考訳): テキスト・画像拡散モデルにおける顕著な成功は、ビデオ応用の可能性について広範な研究を動機付けている。
ゼロショット技術は、さらなるモデルトレーニングを必要とせず、画像拡散モデルをビデオに適用することを目的としている。
近年の手法は、フレーム間対応を注意機構に統合することに重点を置いている。
しかし、有効な特徴を特定するために適用されるソフト制約は不十分であり、時間的矛盾につながる可能性がある。
本稿では,フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
この拡張により、フレーム間で意味的に類似したコンテンツの一貫した変換が保証される。
提案手法は,特徴を明示的に最適化し,入力ビデオとの空間的整合性を向上し,操作されたビデオの視覚的コヒーレンスを大幅に向上させる。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
総合的な実験により,高品質なコヒーレントなビデオを生成する上でのフレームワークの有効性が実証され,現在のゼロショット法に対する大きな進歩が示された。
関連論文リスト
- VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文 参考訳(メタデータ) (2025-10-27T03:44:11Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。