論文の概要: In-Context Learning with Unpaired Clips for Instruction-based Video Editing
- arxiv url: http://arxiv.org/abs/2510.14648v1
- Date: Thu, 16 Oct 2025 13:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.862344
- Title: In-Context Learning with Unpaired Clips for Instruction-based Video Editing
- Title(参考訳): インストラクションに基づくビデオ編集のためのアンペアクリップを用いたインテクスト学習
- Authors: Xinyao Liao, Xianfang Zeng, Ziye Song, Zhoujie Fu, Gang Yu, Guosheng Lin,
- Abstract要約: 我々は、命令ベースのビデオ編集のための低コストの事前学習戦略を導入する。
本フレームワークは,まず約100万本のビデオクリップを事前学習し,基本的な編集概念を学習する。
本手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越する。
- 参考スコア(独自算出の注目度): 51.943707933717185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid progress of instruction-based image editing, its extension to video remains underexplored, primarily due to the prohibitive cost and complexity of constructing large-scale paired video editing datasets. To address this challenge, we introduce a low-cost pretraining strategy for instruction-based video editing that leverages in-context learning from unpaired video clips. We show that pretraining a foundation video generation model with this strategy endows it with general editing capabilities, such as adding, replacing, or deleting operations, according to input editing instructions. The pretrained model can then be efficiently refined with a small amount of high-quality paired editing data. Built upon HunyuanVideoT2V, our framework first pretrains on approximately 1M real video clips to learn basic editing concepts, and subsequently fine-tunes on fewer than 150k curated editing pairs to extend more editing tasks and improve the editing quality. Comparative experiments show that our method surpasses existing instruction-based video editing approaches in both instruction alignment and visual fidelity, achieving a 12\% improvement in editing instruction following and a 15\% improvement in editing quality.
- Abstract(参考訳): 命令ベースの画像編集の急速な進歩にもかかわらず、ビデオへの拡張は、主に大規模なペア化ビデオ編集データセットを構築するのが違法なコストと複雑さのため、未調査のままである。
この課題に対処するために,不用意なビデオクリップからテキスト内学習を活用する,命令ベースのビデオ編集のための低コスト事前学習戦略を導入する。
この戦略により,基礎となる映像生成モデルを事前学習することで,入力編集命令に従って操作の追加,置換,削除などの一般的な編集能力が得られることを示す。
事前訓練されたモデルは、少量の高品質なペア編集データで効率よく洗練することができる。
HunyuanVideoT2Vをベースとした我々のフレームワークは、まず約100万のリアルビデオクリップを事前訓練して基本的な編集概念を学習し、その後150k未満のキュレートされた編集ペアを微調整して、より多くの編集タスクを拡張し、編集品質を向上させる。
比較実験により,提案手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越し,編集精度が12%向上し,編集品質が15%向上した。
関連論文リスト
- EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction [10.855393943204728]
高品質なインストラクションベースのビデオ編集データセットを,100万トリプル,すなわちInsViE-1Mで提示する。
高品質な画像から様々なビデオ編集三脚を生成しフィルタする。
実験では、InsViE-1Mデータセットの利点と、最先端の作業に対するトレーニングされたモデルが示されています。
論文 参考訳(メタデータ) (2025-03-26T07:30:58Z) - InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。
時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。
また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文 参考訳(メタデータ) (2025-03-22T04:12:20Z) - VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists [17.451911831989293]
高品質なビデオ編集データセットであるSenorita-2Mを紹介する。
高品質で特殊な4つのビデオ編集モデルを構築することで構築される。
編集が不十分なビデオペアを除去するためのフィルタリングパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:58:22Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。