論文の概要: Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion
- arxiv url: http://arxiv.org/abs/2501.04606v1
- Date: Wed, 08 Jan 2025 16:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:52.710383
- Title: Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion
- Title(参考訳): 軽量アダプタとテンポラル・アウェア・インバージョンによる低コスト映像編集の高速化
- Authors: Yangfan He, Sida Li, Kun Li, Jianhui Wang, Binxu Li, Tianyu Shi, Jun Yin, Miao Zhang, Xueqian Wang,
- Abstract要約: 本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 20.308013151046616
- License:
- Abstract: Recent advancements in text-to-image (T2I) generation using diffusion models have enabled cost-effective video-editing applications by leveraging pre-trained models, eliminating the need for resource-intensive training. However, the frame-independence of T2I generation often results in poor temporal consistency. Existing methods address this issue through temporal layer fine-tuning or inference-based temporal propagation, but these approaches suffer from high training costs or limited temporal coherence. To address these challenges, we propose a General and Efficient Adapter (GE-Adapter) that integrates temporal-spatial and semantic consistency with Baliteral DDIM inversion. This framework introduces three key components: (1) Frame-based Temporal Consistency Blocks (FTC Blocks) to capture frame-specific features and enforce smooth inter-frame transitions via temporally-aware loss functions; (2) Channel-dependent Spatial Consistency Blocks (SCD Blocks) employing bilateral filters to enhance spatial coherence by reducing noise and artifacts; and (3) Token-based Semantic Consistency Module (TSC Module) to maintain semantic alignment using shared prompt tokens and frame-specific tokens. Our method significantly improves perceptual quality, text-image alignment, and temporal coherence, as demonstrated on the MSR-VTT dataset. Additionally, it achieves enhanced fidelity and frame-to-frame coherence, offering a practical solution for T2V editing.
- Abstract(参考訳): 拡散モデルを用いたテキスト・ツー・イメージ(T2I)生成の最近の進歩は、事前学習モデルを活用することでコスト効率の良いビデオ編集アプリケーションを実現し、リソース集約的なトレーニングの必要性を排除している。
しかし、T2I生成のフレーム独立性はしばしば時間的一貫性を低下させる。
既存の手法では、時間層の微調整や推論に基づく時間的伝播によってこの問題に対処するが、これらの手法は高いトレーニングコストや時間的一貫性の制限に悩まされる。
これらの課題に対処するために,時空間的・意味的整合性をバリカルDDIMインバージョンと統合した汎用かつ効率的な適応器(GE-Adapter)を提案する。
本フレームワークでは,(1)フレーム固有の特徴を捉えるためのフレームベースの時間的整合ブロック(FTCブロック),(2)チャネルに依存しない空間的整合ブロック(SCDブロック),(3)共用プロンプトトークンとフレーム固有のトークンを用いたセマンティック整合性を維持するためのTokenベースの意味的整合性モジュール(TSCモジュール)の3つの主要なコンポーネントを紹介する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
さらに、拡張された忠実性とフレーム間コヒーレンスを実現し、T2V編集の実用的なソリューションを提供する。
関連論文リスト
- Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Towards Consistent Video Editing with Text-to-Image Diffusion Models [10.340371518799444]
既存の作品には、ビデオ編集のための高度なテキスト・ツー・イメージ(TTI)拡散モデルがある。
これらの手法は、テキストプロンプトと時間的シーケンスとの不満足な一貫性の結果を生み出す可能性がある。
我々は,textbfEnhancing vtextbfIdeo textbfEditing constextbfIstency of TTI-based frameworkを提案する。
論文 参考訳(メタデータ) (2023-05-27T10:03:36Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。