論文の概要: MagicQuill: An Intelligent Interactive Image Editing System
- arxiv url: http://arxiv.org/abs/2411.09703v1
- Date: Thu, 14 Nov 2024 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:24.633314
- Title: MagicQuill: An Intelligent Interactive Image Editing System
- Title(参考訳): MagicQuill:インテリジェントなインタラクティブ画像編集システム
- Authors: Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, Yujun Shen,
- Abstract要約: 本稿では,創造的アイデアの迅速な実現を可能にする統合画像編集システムMagicQuillを紹介する。
本システムでは,編集操作の明瞭化を図りつつ,機能的に堅牢なインタフェースを特徴とする。
実験結果から,高画質画像編集におけるMagicQuillの有効性が示された。
- 参考スコア(独自算出の注目度): 73.47681817924062
- License:
- Abstract: Image editing involves a variety of complex tasks and requires efficient and precise manipulation techniques. In this paper, we present MagicQuill, an integrated image editing system that enables swift actualization of creative ideas. Our system features a streamlined yet functionally robust interface, allowing for the articulation of editing operations (e.g., inserting elements, erasing objects, altering color) with minimal input. These interactions are monitored by a multimodal large language model (MLLM) to anticipate editing intentions in real time, bypassing the need for explicit prompt entry. Finally, we apply a powerful diffusion prior, enhanced by a carefully learned two-branch plug-in module, to process editing requests with precise control. Experimental results demonstrate the effectiveness of MagicQuill in achieving high-quality image edits. Please visit https://magic-quill.github.io to try out our system.
- Abstract(参考訳): 画像編集は様々な複雑なタスクを伴い、効率的かつ正確な操作技術を必要とする。
本稿では,創造的アイデアの迅速な実現を可能にする統合画像編集システムMagicQuillを提案する。
本システムでは,操作操作(例えば,要素の挿入,オブジェクトの消去,色の変化など)を最小限の入力で行うことができる。
これらのインタラクションはマルチモーダルな大規模言語モデル(MLLM)によって監視され、明示的なプロンプトエントリの必要性を回避して、編集意図をリアルタイムで予測する。
最後に、慎重に学習された2分岐プラグインモジュールによって強化された強力な拡散を、正確な制御による編集要求の処理に適用する。
実験結果から,高画質画像編集におけるMagicQuillの有効性が示された。
システムを試すにはhttps://magic-quill.github.ioをご覧ください。
関連論文リスト
- InstantDrag: Improving Interactivity in Drag-based Image Editing [23.004027029130953]
ドラッグベースの画像編集は、その対話性と精度で最近人気を集めている。
InstantDragは、対話性と速度を向上する最適化不要なパイプラインである。
InstantDragがマスクやテキストのプロンプトなしで高速でリアルな編集を行う能力を示す。
論文 参考訳(メタデータ) (2024-09-13T14:19:27Z) - Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは、生成タスクにおいて強力な性能を示しており、画像編集の理想的な候補となっている。
本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。
FunEditorは、オブジェクトムーブメントのような複雑なタスクの既存のメソッドよりも5倍から24倍高速な推論を行う。
論文 参考訳(メタデータ) (2024-08-16T02:33:55Z) - Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - DE-Net: Dynamic Text-guided Image Editing Adversarial Networks [82.67199573030513]
様々な編集要求に対して動的に空間的・チャネル的に操作する動的編集ブロック(DEBlock)を提案する。
我々のDE-Netは優れた性能を実現し、より効果的かつ正確にソース画像を操作する。
論文 参考訳(メタデータ) (2022-06-02T17:20:52Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。