論文の概要: EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
- arxiv url: http://arxiv.org/abs/2509.20360v2
- Date: Thu, 25 Sep 2025 22:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 12:12:20.339384
- Title: EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
- Title(参考訳): EditVerse: インコンテキスト学習による画像とビデオ編集と生成の統合
- Authors: Xuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu,
- Abstract要約: イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
- 参考スコア(独自算出の注目度): 58.53074381801114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in foundation models highlight a clear trend toward unification and scaling, showing emergent capabilities across diverse domains. While image generation and editing have rapidly transitioned from task-specific to unified frameworks, video generation and editing remain fragmented due to architectural limitations and data scarcity. In this work, we introduce EditVerse, a unified framework for image and video generation and editing within a single model. By representing all modalities, i.e., text, image, and video, as a unified token sequence, EditVerse leverages self-attention to achieve robust in-context learning, natural cross-modal knowledge transfer, and flexible handling of inputs and outputs with arbitrary resolutions and durations. To address the lack of video editing training data, we design a scalable data pipeline that curates 232K video editing samples and combines them with large-scale image and video datasets for joint training. Furthermore, we present EditVerseBench, the first benchmark for instruction-based video editing covering diverse tasks and resolutions. Extensive experiments and user studies demonstrate that EditVerse achieves state-of-the-art performance, surpassing existing open-source and commercial models, while exhibiting emergent editing and generation abilities across modalities.
- Abstract(参考訳): 基礎モデルの最近の進歩は、統一とスケーリングへの明確な傾向を浮き彫りにしており、様々な領域にまたがる創発的な能力を示している。
画像生成と編集はタスク固有のフレームワークから統一されたフレームワークへと急速に移行しているが、ビデオ生成と編集はアーキテクチャ上の制限とデータの不足のために断片化されている。
本研究では,1つのモデル内で画像およびビデオの生成と編集を行う統合フレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは自己認識を活用して、堅牢なインコンテキスト学習、自然なクロスモーダルな知識伝達、任意の解像度と期間でインプットとアウトプットの柔軟な処理を実現する。
ビデオ編集トレーニングデータの欠如に対処するため,232Kのビデオ編集サンプルをキュレートし,大規模な画像データセットと組み合わせて共同トレーニングを行う,スケーラブルなデータパイプラインを設計する。
さらに,多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
大規模な実験とユーザスタディにより、EditVerseは、既存のオープンソースおよび商用モデルを上回る、最先端のパフォーマンスを達成し、同時に、モダリティを越えた創発的な編集と生成能力を示すことが実証された。
関連論文リスト
- DreamVE: Unified Instruction-based Image and Video Editing [48.59380808274814]
本稿では,DreamVEを紹介した。DreamVEは命令ベースの画像編集とビデオ編集の統一モデルである。
本稿では,まず画像編集,次にビデオ編集という2段階の学習戦略を提案する。
我々はコラージュベースおよび生成モデルベースデータ合成を含む包括的トレーニングデータパイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-08T07:20:30Z) - VINCIE: Unlocking In-context Image Editing from Video [62.88977098700917]
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。
このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。
本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-06-12T17:46:54Z) - InstructVEdit: A Holistic Approach for Instructional Video Editing [28.13673601495108]
InstructVEditは、信頼できるデータセットキュレーションワークフローを確立するフルサイクルのインストラクショナルビデオ編集アプローチである。
時間的一貫性を維持しながら、編集品質を向上させるために、2つのモデルアーキテクチャの改善が組み込まれている。
また、実世界のデータを活用して、一般化を強化し、列車とテストの相違を最小限に抑える反復的な改善戦略を提案する。
論文 参考訳(メタデータ) (2025-03-22T04:12:20Z) - VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。
本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文 参考訳(メタデータ) (2023-02-06T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。