論文の概要: VINCIE: Unlocking In-context Image Editing from Video
- arxiv url: http://arxiv.org/abs/2506.10941v1
- Date: Thu, 12 Jun 2025 17:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.879844
- Title: VINCIE: Unlocking In-context Image Editing from Video
- Title(参考訳): VINCIE:ビデオからテキスト内画像の編集をアンロック
- Authors: Leigang Qu, Feng Cheng, Ziyan Yang, Qi Zhao, Shanchuan Lin, Yichun Shi, Yicong Li, Wenjie Wang, Tat-Seng Chua, Lu Jiang,
- Abstract要約: 本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。
このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。
本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
- 参考スコア(独自算出の注目度): 62.88977098700917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context image editing aims to modify images based on a contextual sequence comprising text and previously generated images. Existing methods typically depend on task-specific pipelines and expert models (e.g., segmentation and inpainting) to curate training data. In this work, we explore whether an in-context image editing model can be learned directly from videos. We introduce a scalable approach to annotate videos as interleaved multimodal sequences. To effectively learn from this data, we design a block-causal diffusion transformer trained on three proxy tasks: next-image prediction, current segmentation prediction, and next-segmentation prediction. Additionally, we propose a novel multi-turn image editing benchmark to advance research in this area. Extensive experiments demonstrate that our model exhibits strong in-context image editing capabilities and achieves state-of-the-art results on two multi-turn image editing benchmarks. Despite being trained exclusively on videos, our model also shows promising abilities in multi-concept composition, story generation, and chain-of-editing applications.
- Abstract(参考訳): In-context Image Editorは、テキストと以前に生成された画像からなるコンテキストシーケンスに基づいて、画像を修正することを目的としている。
既存のメソッドは通常、トレーニングデータをキュレートするためにタスク固有のパイプラインとエキスパートモデル(例えば、セグメンテーションとインパインティング)に依存します。
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。
我々は、動画をインターリーブしたマルチモーダルシーケンスとしてアノテートするためのスケーラブルなアプローチを導入する。
このデータから効果的に学習するために、次のイメージ予測、現在のセグメンテーション予測、次のセグメンテーション予測という3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。
さらに,この領域の研究を進めるために,新しいマルチターン画像編集ベンチマークを提案する。
広汎な実験により,本モデルは強いコンテキスト内画像編集能力を示し,2つのマルチターン画像編集ベンチマークの最先端結果を得ることができた。
ビデオに特化して訓練されているにもかかわらず、私たちのモデルは、マルチコンセプト構成、ストーリー生成、および編集の連鎖アプリケーションにおいて有望な能力を示す。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。