Fugu-MT 論文翻訳(概要): VidToMe: Video Token Merging for Zero-Shot Video Editing

論文の概要: VidToMe: Video Token Merging for Zero-Shot Video Editing

arxiv url: http://arxiv.org/abs/2312.10656v2
Date: Tue, 19 Dec 2023 13:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 12:19:02.404420
Title: VidToMe: Video Token Merging for Zero-Shot Video Editing
Title（参考訳）: VidToMe:ゼロショットビデオ編集のためのビデオトークンマージ
Authors: Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang
Abstract要約: 本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
参考スコア（独自算出の注目度）: 100.79999871424931
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have made significant advances in generating high-quality images, but their application to video generation has remained challenging due to the complexity of temporal motion. Zero-shot video editing offers a solution by utilizing pre-trained image diffusion models to translate source videos into new ones. Nevertheless, existing methods struggle to maintain strict temporal consistency and efficient memory consumption. In this work, we propose a novel approach to enhance temporal consistency in generated videos by merging self-attention tokens across frames. By aligning and compressing temporally redundant tokens across frames, our method improves temporal coherence and reduces memory consumption in self-attention computations. The merging strategy matches and aligns tokens according to the temporal correspondence between frames, facilitating natural temporal consistency in generated video frames. To manage the complexity of video processing, we divide videos into chunks and develop intra-chunk local token merging and inter-chunk global token merging, ensuring both short-term video continuity and long-term content consistency. Our video editing approach seamlessly extends the advancements in image editing to video editing, rendering favorable results in temporal consistency over state-of-the-art methods.
Abstract（参考訳）: 拡散モデルは高品質な画像の生成において大きな進歩を遂げてきたが、時間運動の複雑さのためにビデオ生成への応用は依然として困難である。ゼロショットビデオ編集は、訓練済みの画像拡散モデルを利用してソースビデオを新しいものに翻訳することで、ソリューションを提供する。それでも、既存の手法は厳密な時間的一貫性と効率的なメモリ消費を維持するのに苦労している。本研究では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める手法を提案する。フレーム間の時間的冗長なトークンの整列と圧縮により,時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を低減する。マージ戦略はフレーム間の時間的対応に応じてトークンを一致させて調整し、生成されたビデオフレームにおける自然な時間的一貫性を促進する。ビデオ処理の複雑さを管理するため,映像をチャンクに分割し,チャンク内局所トークンマージとチャンク間グローバルトークンマージを開発する。映像編集手法は,映像編集の進歩をシームレスに拡張し,最先端の手法よりも良好な時間的一貫性を実現する。

関連論文リスト

FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [46.67733869872552]
textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
論文参考訳（メタデータ） (2025-12-12T04:34:53Z)
AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文参考訳（メタデータ） (2025-12-11T18:59:34Z)
Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文参考訳（メタデータ） (2024-12-13T14:50:26Z)
Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文参考訳（メタデータ） (2024-07-21T13:14:17Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文参考訳（メタデータ） (2024-01-23T18:05:25Z)
LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video Translation [21.815083817914843]
我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。 textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
論文参考訳（メタデータ） (2023-11-01T08:02:57Z)
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文参考訳（メタデータ） (2023-06-14T19:15:49Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文参考訳（メタデータ） (2022-12-14T18:54:13Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。