論文の概要: InsEdit: Towards Instruction-based Visual Editing via Data-Efficient Video Diffusion Models Adaptation
- arxiv url: http://arxiv.org/abs/2604.08646v1
- Date: Thu, 09 Apr 2026 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.517908
- Title: InsEdit: Towards Instruction-based Visual Editing via Data-Efficient Video Diffusion Models Adaptation
- Title(参考訳): InsEdit: データ効率のよいビデオ拡散モデルによるインストラクションベースのビジュアル編集を目指して
- Authors: Zhefan Rao, Bin Zou, Haoxuan Che, Xuanhua He, Chong Hou Choi, Yanheng Li, Rui Liu, Qifeng Chen,
- Abstract要約: 本稿では,HunyuanVideo-1.5をベースとしたインストラクションベースの編集モデルであるInsEditを紹介する。
InsEditは、Mutual Context Attention (MCA)に基づくビジュアル編集アーキテクチャとビデオデータパイプラインを組み合わせる
InsEditは,O(100)Kビデオ編集データのみを用いて,我々のビデオ命令編集ベンチマークにおけるオープンソース手法の最先端結果を実現する。
- 参考スコア(独自算出の注目度): 47.1844759979843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instruction-based video editing is a natural way to control video content with text, but adapting a video generation model into an editor usually appears data-hungry. At the same time, high-quality video editing data remains scarce. In this paper, we show that a video generation backbone can become a strong video editor without large scale video editing data. We present InsEdit, an instruction-based editing model built on HunyuanVideo-1.5. InsEdit combines a visual editing architecture with a video data pipeline based on Mutual Context Attention (MCA), which creates aligned video pairs where edits can begin in the middle of a clip rather than only from the first frame. With only O(100)K video editing data, InsEdit achieves state-of-the-art results among open-source methods on our video instruction editing benchmarks. In addition, because our training recipe also includes image editing data, the final model supports image editing without any modification.
- Abstract(参考訳): インストラクションベースのビデオ編集は、テキストでビデオコンテンツを制御するための自然な方法であるが、ビデオ生成モデルをエディタに適応させると、通常、データに悩まされる。
同時に、高品質のビデオ編集データも乏しい。
本稿では,ビデオ生成のバックボーンが大規模なビデオ編集データなしで強力なビデオエディタになることを示す。
本稿では,HunyuanVideo-1.5をベースとしたインストラクションベースの編集モデルであるInsEditを紹介する。
InsEditは、視覚的な編集アーキテクチャと、Mutual Context Attention (MCA)に基づくビデオデータパイプラインを組み合わせる。
InsEditは,O(100)Kビデオ編集データのみを用いて,我々のビデオ命令編集ベンチマークにおけるオープンソース手法の最先端結果を実現する。
また、トレーニングレシピには画像編集データも含まれているため、最終モデルは修正することなく画像編集をサポートする。
関連論文リスト
- EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。
EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - In-Context Learning with Unpaired Clips for Instruction-based Video Editing [51.943707933717185]
我々は、命令ベースのビデオ編集のための低コストの事前学習戦略を導入する。
本フレームワークは,まず約100万本のビデオクリップを事前学習し,基本的な編集概念を学習する。
本手法は命令アライメントと視覚的忠実度の両方において既存の命令ベースビデオ編集手法を超越する。
論文 参考訳(メタデータ) (2025-10-16T13:02:11Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。