論文の概要: LIVE: Leveraging Image Manipulation Priors for Instruction-based Video Editing
- arxiv url: http://arxiv.org/abs/2604.17021v1
- Date: Sat, 18 Apr 2026 15:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.292512
- Title: LIVE: Leveraging Image Manipulation Priors for Instruction-based Video Editing
- Title(参考訳): LIVE: インストラクションベースのビデオ編集における画像操作の事前活用
- Authors: Weicheng Wang, Zhicheng Zhang, Zhongqi Zhang, Juncheng Zhou, Yongjie Zhu, Wenyu Qin, Meng Wang, Pengfei Wan, Jufeng Yang,
- Abstract要約: 我々は,大規模で高品質な画像編集データをビデオデータセットとともに活用し,編集能力を増強する共同トレーニングフレームワークであるLIVEを提案する。
フレームワイドなトークンノイズ戦略を導入し、特定のフレームの潜伏を推論トークンとして扱い、大規模な事前学習ビデオ生成モデルを活用して、妥当な時間変換を生成する。
画像編集に多いが、既存のビデオデータセットでは不十分な60以上の課題を含む総合的な評価ベンチマークをキュレートする。
- 参考スコア(独自算出の注目度): 45.1196749483108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video editing aims to modify input videos according to user intent. Recently, end-to-end training methods have garnered widespread attention, constructing paired video editing data through video generation or editing models. However, compared to image editing, the high annotation costs of video data severely constrain the scale, quality, and task diversity of video editing datasets when relying on video generative models or manual annotation. To bridge this gap, we propose LIVE, a joint training framework that leverages large-scale, high-quality image editing data alongside video datasets to bolster editing capabilities. To mitigate the domain discrepancy between static images and dynamic videos, we introduce a frame-wise token noise strategy, which treats the latents of specific frames as reasoning tokens, leveraging large pretrained video generative models to create plausible temporal transformations. Moreover, through cleaning public datasets and constructing an automated data pipeline, we adopt a two-stage training strategy to anneal video editing capabilities. Furthermore, we curate a comprehensive evaluation benchmark encompassing over 60 challenging tasks that are prevalent in image editing but scarce in existing video datasets. Extensive comparative and ablation experiments demonstrate that our method achieves state-of-the-art performance. The source code will be publicly available.
- Abstract(参考訳): ビデオ編集は、ユーザの意図に応じて入力ビデオを変更することを目的としている。
近年,ビデオ生成や編集モデルによるペアビデオ編集データの構築など,エンド・ツー・エンドのトレーニング手法が注目されている。
しかし、画像編集と比較して、ビデオ生成モデルや手動アノテーションに依存する場合、動画編集データセットのスケール、品質、タスクの多様性を著しく制約する。
このギャップを埋めるために,ビデオデータセットとともに大規模で高品質な画像編集データを活用する共同トレーニングフレームワークであるLIVを提案する。
静的画像とダイナミックビデオのドメイン差を緩和するため,フレームワイドなトークンノイズ戦略を導入し,特定のフレームの潜伏を推論トークンとして扱う。
さらに、公開データセットのクリーニングと自動データパイプラインの構築を通じて、ビデオ編集機能に2段階のトレーニング戦略を採用する。
さらに、既存のビデオデータセットでは不十分な60以上の課題を含む総合的な評価ベンチマークをキュレートする。
大規模な比較・アブレーション実験により,本手法が最先端の性能を達成することを示す。
ソースコードは公開されます。
関連論文リスト
- DiffMagicFace: Identity Consistent Facial Editing of Real Videos [16.262125513013746]
DiffMagicFaceは、テキストと画像制御のための2つの微調整されたモデルを統合する、ユニークなビデオ編集フレームワークである。
私たちのアプローチはビデオデータセットに依存しませんが、一貫性とコンテンツの両方で高品質な結果をもたらします。
論文 参考訳(メタデータ) (2026-04-15T13:13:04Z) - ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks [46.442660004277734]
我々は,画像ペアから映像編集能力を学習する効率的なフレームワークImVideoEditを提案する。
トレーニング済みの3Dアテンションモジュールを凍結し、画像を単一フレームビデオとして扱うことにより、2次元空間学習プロセスを分離し、元の時間的ダイナミクスの保存を支援する。
計算オーバーヘッドが極めて少ない5つのエポックに対して、たった13Kイメージペアをトレーニングしているにも関わらず、ImVideoEditは、広範なビデオデータセットでトレーニングされたより大きなモデルに匹敵する、編集の忠実さと時間的一貫性を実現している。
論文 参考訳(メタデータ) (2026-04-09T08:22:09Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - VINCIE: Unlocking In-context Image Editing from Video [62.88977098700917]
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。
このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。
本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-06-12T17:46:54Z) - VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation [70.87745520234012]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。