Fugu-MT 論文翻訳(概要): Towards Consistent Video Editing with Text-to-Image Diffusion Models

論文の概要: Towards Consistent Video Editing with Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2305.17431v1
Date: Sat, 27 May 2023 10:03:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 19:25:53.315764
Title: Towards Consistent Video Editing with Text-to-Image Diffusion Models
Title（参考訳）: テキスト-画像拡散モデルによる一貫性ビデオ編集に向けて
Authors: Zicheng Zhang, Bonan Li, Xuecheng Nie, Congying Han, Tiande Guo, Luoqi Liu
Abstract要約: 既存の作品には、ビデオ編集のための高度なテキスト・ツー・イメージ(TTI)拡散モデルがある。これらの手法は、テキストプロンプトと時間的シーケンスとの不満足な一貫性の結果を生み出す可能性がある。我々は,textbfEnhancing vtextbfIdeo textbfEditing constextbfIstency of TTI-based frameworkを提案する。
参考スコア（独自算出の注目度）: 10.340371518799444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing works have advanced Text-to-Image (TTI) diffusion models for video editing in a one-shot learning manner. Despite their low requirements of data and computation, these methods might produce results of unsatisfied consistency with text prompt as well as temporal sequence, limiting their applications in the real world. In this paper, we propose to address the above issues with a novel EI$^2$ model towards \textbf{E}nhancing v\textbf{I}deo \textbf{E}diting cons\textbf{I}stency of TTI-based frameworks. Specifically, we analyze and find that the inconsistent problem is caused by newly added modules into TTI models for learning temporal information. These modules lead to covariate shift in the feature space, which harms the editing capability. Thus, we design EI$^2$ to tackle the above drawbacks with two classical modules: Shift-restricted Temporal Attention Module (STAM) and Fine-coarse Frame Attention Module (FFAM). First, through theoretical analysis, we demonstrate that covariate shift is highly related to Layer Normalization, thus STAM employs a \textit{Instance Centering} layer replacing it to preserve the distribution of temporal features. In addition, {STAM} employs an attention layer with normalized mapping to transform temporal features while constraining the variance shift. As the second part, we incorporate {STAM} with a novel {FFAM}, which efficiently leverages fine-coarse spatial information of overall frames to further enhance temporal consistency. Extensive experiments demonstrate the superiority of the proposed EI$^2$ model for text-driven video editing.
Abstract（参考訳）: 既存の作品には、ビデオ編集のための高度なテキスト・ツー・イメージ(TTI)拡散モデルがある。データと計算の要求が低いにもかかわらず、これらの手法はテキストプロンプトと時間的シーケンスとの整合性に乏しい結果をもたらし、現実の世界での利用を制限する。本稿では, tti ベースのフレームワークのcons\textbf{e}nhancing v\textbf{i}deo \textbf{e}diting cons\textbf{i}stencyに対する新しい ei$^2$ モデルを提案する。具体的には,時間情報学習のためのttiモデルに新たに加えたモジュールが不整合問題の原因であることを示す。これらのモジュールは機能空間の共変につながり、編集能力に悪影響を及ぼす。そこで我々は,シフト制限時間アテンションモジュール (STAM) とファイン粗いフレームアテンションモジュール (FFAM) の2つの古典モジュールを用いて,上記の欠点に対処するためにEI$^2$を設計する。まず、理論的解析により、共変量シフトが層正規化と高い関係があることを示し、STAMは時間的特徴の分布を保存するためにそれを置換する \textit{Instance Centering} 層を用いる。さらに、{STAM} は、分散シフトを制約しながら時間的特徴を変換するために、正規化されたマッピングを持つアテンション層を用いる。第2部として, フレーム全体の粗大な空間情報を効率よく活用し, 時間的整合性をさらに向上する, 新規なFFAMを組み込んだ {STAM} を提案する。テキスト駆動ビデオ編集において,提案したEI$^2$モデルの優位性を示す実験を行った。

関連論文リスト

Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [26.706957163997043]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。 MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文参考訳（メタデータ） (2025-01-08T16:41:31Z)
VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文参考訳（メタデータ） (2024-11-26T16:56:53Z)
LLM-TS Integrator: Integrating LLM for Enhanced Time Series Modeling [5.853711797849859]
天気予報や異常検出などの動的システムでは時系列モデリングが不可欠である。近年,大規模言語モデル(LLM)をTSモデリングに利用し,その強力なパターン認識機能を活用している。
論文参考訳（メタデータ） (2024-10-21T20:29:46Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-05-23T17:57:09Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)
Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文参考訳（メタデータ） (2022-09-27T11:13:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。