論文の概要: TV-LiVE: Training-Free, Text-Guided Video Editing via Layer Informed Vitality Exploitation
- arxiv url: http://arxiv.org/abs/2506.07205v1
- Date: Sun, 08 Jun 2025 16:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.712131
- Title: TV-LiVE: Training-Free, Text-Guided Video Editing via Layer Informed Vitality Exploitation
- Title(参考訳): TV-LiVE:レイヤーインフォームド・バイタリティ・エクスプロイテーションによるトレーニング不要、テキストガイド付きビデオ編集
- Authors: Min-Jung Kim, Dongjin Kim, Seokju Yun, Jaegul Choo,
- Abstract要約: 我々は、Layerinformed Vitality Exploitationを通じて、トレーニング不要でテキスト誘導型のビデオ編集フレームワークであるTV-LiVEを紹介する。
生成した出力の品質に大きく影響を及ぼす映像生成モデル内の重要層を実証的に同定する。
対象追加のために,新たに追加されたターゲットプロンプトに対応するマスク領域を抽出するために,顕著な層を特定する。
- 参考スコア(独自算出の注目度): 36.81368812919819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video editing has garnered increasing attention alongside the rapid progress of diffusion-based video generation models. As part of these advancements, there is a growing demand for more accessible and controllable forms of video editing, such as prompt-based editing. Previous studies have primarily focused on tasks such as style transfer, background replacement, object substitution, and attribute modification, while maintaining the content structure of the source video. However, more complex tasks, including the addition of novel objects and nonrigid transformations, remain relatively unexplored. In this paper, we present TV-LiVE, a Training-free and text-guided Video editing framework via Layerinformed Vitality Exploitation. We empirically identify vital layers within the video generation model that significantly influence the quality of generated outputs. Notably, these layers are closely associated with Rotary Position Embeddings (RoPE). Based on this observation, our method enables both object addition and non-rigid video editing by selectively injecting key and value features from the source model into the corresponding layers of the target model guided by the layer vitality. For object addition, we further identify prominent layers to extract the mask regions corresponding to the newly added target prompt. We found that the extracted masks from the prominent layers faithfully indicate the region to be edited. Experimental results demonstrate that TV-LiVE outperforms existing approaches for both object addition and non-rigid video editing. Project Page: https://emjay73.github.io/TV_LiVE/
- Abstract(参考訳): 拡散型ビデオ生成モデルの急速な進歩とともに、ビデオ編集が注目されている。
これらの進歩の一環として、プロンプトベースの編集など、よりアクセシブルでコントロール可能なビデオ編集形式への需要が高まっている。
従来の研究は主に、スタイル転送、バックグラウンド置換、オブジェクト置換、属性修正といったタスクに焦点を合わせ、ソースビデオのコンテンツ構造を維持してきた。
しかし、新しい物体の追加や非剛体変換を含むより複雑なタスクは、いまだに未解明のままである。
本稿では、Layerinformed Vitality Exploitationを介して、トレーニング不要でテキスト誘導型のビデオ編集フレームワークであるTV-LiVEを紹介する。
生成した出力の品質に大きく影響を及ぼすビデオ生成モデル内の重要な層を実証的に同定する。
特に、これらの層はRotary Position Embeddings (RoPE)と密接に関連している。
このことから,本手法では,対象モデルからキーと値の特徴を選択的に注入することで,オブジェクトの追加と非厳密なビデオ編集が可能である。
対象追加のために、新たに追加されたターゲットプロンプトに対応するマスク領域を抽出するために、顕著な層を同定する。
その結果,顕著な層から抽出したマスクは,編集すべき領域を忠実に示していることがわかった。
実験の結果,TV-LiVEはオブジェクトの追加と非厳密なビデオ編集の両方において,既存の手法よりも優れていた。
Project Page: https://emjay73.github.io/TV_LiVE/
関連論文リスト
- VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - RNA: Video Editing with ROI-based Neural Atlas [14.848279912686946]
我々は、ROIベースのニューラルアトラス(RNA)という、新しい関心領域(ROI)ベースのビデオ編集フレームワークを提案する。
以前の作業とは異なり、RNAはユーザーが編集領域を指定できるようにし、前景分離の必要性を取り除くことで編集プロセスを簡素化する。
ビデオ再構成のためのソフトニューラルネットワークモデルを導入し,高品質な編集結果を確実にする。
論文 参考訳(メタデータ) (2024-10-10T04:17:19Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - MagicStick: Controllable Video Editing via Control Handle Transformations [49.29608051543133]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - StableVideo: Text-driven Consistency-aware Diffusion Video Editing [24.50933856309234]
拡散に基づく手法は、リアルな画像やビデオを生成することができるが、ビデオ内の既存のオブジェクトを編集するのに苦労し、その外観は時間の経過とともに保たれる。
本稿では、既存のテキスト駆動拡散モデルへの時間的依存を導入し、編集対象に対して一貫した外観を生成する。
我々は,この機構,すなわちStableVideoに基づくテキスト駆動のビデオ編集フレームワークを構築し,一貫性を意識したビデオ編集を実現する。
論文 参考訳(メタデータ) (2023-08-18T14:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。