論文の概要: STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing
- arxiv url: http://arxiv.org/abs/2506.22868v1
- Date: Sat, 28 Jun 2025 12:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.611342
- Title: STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing
- Title(参考訳): STR-Match: トレーニングフリービデオ編集のための時空間関連スコアマッチング
- Authors: Junsung Lee, Junoh Kang, Bohyung Han,
- Abstract要約: STR-Matchは、視覚的に魅力的なコヒーレントなビデオを生成するトレーニングフリーのビデオ編集システムである。
STR-Matchは、視覚的品質と時間的一貫性の両方において、既存の手法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 35.50656689789427
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous text-guided video editing methods often suffer from temporal inconsistency, motion distortion, and-most notably-limited domain transformation. We attribute these limitations to insufficient modeling of spatiotemporal pixel relevance during the editing process. To address this, we propose STR-Match, a training-free video editing algorithm that produces visually appealing and spatiotemporally coherent videos through latent optimization guided by our novel STR score. The score captures spatiotemporal pixel relevance across adjacent frames by leveraging 2D spatial attention and 1D temporal modules in text-to-video (T2V) diffusion models, without the overhead of computationally expensive 3D attention mechanisms. Integrated into a latent optimization framework with a latent mask, STR-Match generates temporally consistent and visually faithful videos, maintaining strong performance even under significant domain transformations while preserving key visual attributes of the source. Extensive experiments demonstrate that STR-Match consistently outperforms existing methods in both visual quality and spatiotemporal consistency.
- Abstract(参考訳): 従来のテキスト誘導ビデオ編集手法は、時間的不整合、動きの歪み、そして最も顕著に制限された領域変換に悩まされることが多い。
これらの制限は,編集過程における時空間画素関係のモデリングが不十分なためと考えられる。
そこで我々はSTR-Matchを提案する。STR-Matchは、新しいSTRスコアに導かれる潜時最適化により、視覚的に魅力的かつ時空間的にコヒーレントなビデオを生成する訓練不要なビデオ編集アルゴリズムである。
このスコアは、テキスト・ツー・ビデオ拡散モデル(T2V)における2次元空間的注意と1次元時間的モジュールを活用することで、計算コストのかかる3次元注意機構のオーバーヘッドなく、隣接するフレーム間の時空間関係をキャプチャする。
遅延マスクを備えた潜在最適化フレームワークに統合されたSTR-Matchは、時間的に一貫性があり、視覚的に忠実なビデオを生成し、ソースの重要な視覚特性を保持しながら、大きなドメイン変換の下でも強力なパフォーマンスを維持する。
広範囲な実験により、STR-Matchは、視覚的品質と時空間的一貫性の両方において、既存の手法よりも一貫して優れていることが示された。
関連論文リスト
- Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [28.38307253613529]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。