論文の概要: VALA: Learning Latent Anchors for Training-Free and Temporally Consistent
- arxiv url: http://arxiv.org/abs/2510.22970v1
- Date: Mon, 27 Oct 2025 03:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.438446
- Title: VALA: Learning Latent Anchors for Training-Free and Temporally Consistent
- Title(参考訳): VALA: トレーニングフリーで一時一貫性のある潜伏型アンカーの学習
- Authors: Zhangkai Wu, Xuhui Fan, Zhongyuan Xie, Kaize Shi, Longbing Cao,
- Abstract要約: 本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
- 参考スコア(独自算出の注目度): 29.516179213427694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in training-free video editing have enabled lightweight and precise cross-frame generation by leveraging pre-trained text-to-image diffusion models. However, existing methods often rely on heuristic frame selection to maintain temporal consistency during DDIM inversion, which introduces manual bias and reduces the scalability of end-to-end inference. In this paper, we propose~\textbf{VALA} (\textbf{V}ariational \textbf{A}lignment for \textbf{L}atent \textbf{A}nchors), a variational alignment module that adaptively selects key frames and compresses their latent features into semantic anchors for consistent video editing. To learn meaningful assignments, VALA propose a variational framework with a contrastive learning objective. Therefore, it can transform cross-frame latent representations into compressed latent anchors that preserve both content and temporal coherence. Our method can be fully integrated into training-free text-to-image based video editing models. Extensive experiments on real-world video editing benchmarks show that VALA achieves state-of-the-art performance in inversion fidelity, editing quality, and temporal consistency, while offering improved efficiency over prior methods.
- Abstract(参考訳): トレーニングフリーのビデオ編集の最近の進歩は、事前訓練されたテキスト-画像拡散モデルを活用することにより、軽量で正確なクロスフレーム生成を可能にしている。
しかし、既存の手法は、DDIMの反転中に時間的一貫性を維持するためにヒューリスティックなフレーム選択に依存しており、手動バイアスを導入し、エンドツーエンド推論のスケーラビリティを低下させる。
本稿では、キーフレームを適応的に選択し、その潜在機能をセマンティックアンカーに圧縮して一貫したビデオ編集を行う変分アライメントモジュールである~\textbf{VALA} (\textbf{V}ariational \textbf{A}lignment for \textbf{L}atent \textbf{A}nchors)を提案する。
VALAは、意味のある課題を学習するために、対照的な学習目的を持つ変分フレームワークを提案する。
したがって、クロスフレームラテント表現をコンテントと時間的コヒーレンスの両方を保存する圧縮ラテントアンカーに変換することができる。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
実世界のビデオ編集ベンチマークにおける大規模な実験により、VALAは、従来の方法よりも効率が向上しつつ、反転忠実さ、編集品質、時間的一貫性において最先端のパフォーマンスを達成することが示されている。
関連論文リスト
- Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing [35.50656689789427]
STR-Matchは、視覚的に魅力的なコヒーレントなビデオを生成するトレーニングフリーのビデオ編集システムである。
STR-Matchは、視覚的品質と時間的一貫性の両方において、既存の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-06-28T12:36:19Z) - FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing [2.7248421583285265]
FlowDirectorは、新しいインバージョンフリーのビデオ編集フレームワークである。
我々のフレームワークは、編集プロセスをデータ空間の直接進化としてモデル化する。
局所的かつ制御可能な編集を実現するために,注意誘導型マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-05T13:54:40Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。