論文の概要: EditWorld: Simulating World Dynamics for Instruction-Following Image Editing
- arxiv url: http://arxiv.org/abs/2405.14785v1
- Date: Thu, 23 May 2024 16:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:46:53.697338
- Title: EditWorld: Simulating World Dynamics for Instruction-Following Image Editing
- Title(参考訳): EditWorld: インストラクション追従画像編集のためのワールドダイナミクスのシミュレーション
- Authors: Ling Yang, Bohan Zeng, Jiaming Liu, Hong Li, Minghao Xu, Wentao Zhang, Shuicheng Yan,
- Abstract要約: 拡散モデルは画像編集の性能を大幅に改善した。
本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。
本手法は,既存の編集方法よりも大幅に優れる。
- 参考スコア(独自算出の注目度): 68.6224340373457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly improved the performance of image editing. Existing methods realize various approaches to achieve high-quality image editing, including but not limited to text control, dragging operation, and mask-and-inpainting. Among these, instruction-based editing stands out for its convenience and effectiveness in following human instructions across diverse scenarios. However, it still focuses on simple editing operations like adding, replacing, or deleting, and falls short of understanding aspects of world dynamics that convey the realistic dynamic nature in the physical world. Therefore, this work, EditWorld, introduces a new editing task, namely world-instructed image editing, which defines and categorizes the instructions grounded by various world scenarios. We curate a new image editing dataset with world instructions using a set of large pretrained models (e.g., GPT-3.5, Video-LLava and SDXL). To enable sufficient simulation of world dynamics for image editing, our EditWorld trains model in the curated dataset, and improves instruction-following ability with designed post-edit strategy. Extensive experiments demonstrate our method significantly outperforms existing editing methods in this new task. Our dataset and code will be available at https://github.com/YangLing0818/EditWorld
- Abstract(参考訳): 拡散モデルは画像編集の性能を大幅に改善した。
既存の方法は,テキストコントロールやドラッグ操作,マスク・アンド・インペインティングなど,高品質な画像編集を実現するための様々なアプローチを実現する。
これらのうち、命令ベースの編集は、様々なシナリオにまたがる人間の指示に従うことの利便性と有効性で際立っている。
しかし、それは依然として追加、置換、削除のような単純な編集操作に焦点を合わせており、物理的な世界の現実的なダイナミックな性質を伝達する世界力学の側面を理解していない。
そのため、この作業であるEditWorldは、様々な世界のシナリオによって根ざされた命令を定義し分類する、新しい編集タスク、すなわち、ワールドインストラクトされた画像編集を導入している。
我々は,大規模な事前学習モデル(GPT-3.5, Video-LLava, SDXL)を用いて,新しい画像編集データセットをワールドインストラクションでキュレートする。
画像編集のためのワールドダイナミクスの十分なシミュレーションを実現するため、我々のEditWorldトレーナーは、キュレートされたデータセットでモデルを作成し、デザインされたポストエジット戦略で命令追従能力を向上させる。
大規模な実験により,本手法は既存の編集方法よりも大幅に優れていた。
私たちのデータセットとコードはhttps://github.com/YangLing0818/EditWorldで公開されます。
関連論文リスト
- InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - A Benchmark and Baseline for Language-Driven Image Editing [81.74863590492663]
まず,ローカル編集とグローバル編集の両方をサポートする新しい言語駆動画像編集データセットを提案する。
本手法では,各編集操作をサブモジュールとして扱い,演算パラメータを自動的に予測する。
ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると確信しています。
論文 参考訳(メタデータ) (2020-10-05T20:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。