論文の概要: FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing
- arxiv url: http://arxiv.org/abs/2408.12429v1
- Date: Thu, 22 Aug 2024 14:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:32:07.533667
- Title: FlexEdit: Marrying Free-Shape Masks to VLLM for Flexible Image Editing
- Title(参考訳): FlexEdit: フレキシブルなイメージ編集のための自由形マスクをVLLMに変換する
- Authors: Jue Wang, Yuxiang Lin, Tianshuo Yuan, Zhi-Qi Cheng, Xiaolong Wang, Jiao GH, Wei Chen, Xiaojiang Peng,
- Abstract要約: 本稿では,フレキシブル編集のための自由形状マスクと言語命令の両方を活用する,エンドツーエンドの画像編集手法であるFlexEditを提案する。
LLMに基づく画像編集において,本手法は最先端(SOTA)性能を実現し,簡単なプロンプト技術はその有効性で際立っている。
- 参考スコア(独自算出の注目度): 25.18320863976491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining Vision Large Language Models (VLLMs) with diffusion models offers a powerful method for executing image editing tasks based on human language instructions. However, language instructions alone often fall short in accurately conveying user requirements, particularly when users want to add, replace elements in specific areas of an image. Luckily, masks can effectively indicate the exact locations or elements to be edited, while they require users to precisely draw the shapes at the desired locations, which is highly user-unfriendly. To address this, we propose FlexEdit, an end-to-end image editing method that leverages both free-shape masks and language instructions for Flexible Editing. Our approach employs a VLLM in comprehending the image content, mask, and user instructions. Additionally, we introduce the Mask Enhance Adapter (MEA) that fuses the embeddings of the VLLM with the image data, ensuring a seamless integration of mask information and model output embeddings. Furthermore, we construct FSMI-Edit, a benchmark specifically tailored for free-shape mask, including 8 types of free-shape mask. Extensive experiments show that our method achieves state-of-the-art (SOTA) performance in LLM-based image editing, and our simple prompting technique stands out in its effectiveness. The code and data can be found at https://github.com/A-new-b/flex_edit.
- Abstract(参考訳): 視覚大言語モデル(VLLM)と拡散モデルを組み合わせることで、人間の言語命令に基づいて画像編集タスクを実行する強力な方法が提供される。
しかし、言語命令だけでは、特にユーザーが画像の特定の領域の要素を追加したり置き換えたりしたい場合に、正確にユーザー要求を伝えるのに不足することが多い。
幸いなことに、マスクは編集対象の正確な位置や要素を効果的に示すことができる。
そこで本稿では,フレキシブル編集のための自由形状マスクと言語命令の両方を活用する,エンドツーエンドの画像編集手法であるFlexEditを提案する。
本手法では,画像内容,マスク,ユーザ指示の解釈にVLLMを用いる。
さらに,画像データとVLLMの埋め込みを融合させ,マスク情報とモデル出力の埋め込みをシームレスに統合するMask Enhance Adapter (MEA)を導入する。
さらに,8種類の自由形マスクを含む自由形マスクに適したベンチマークであるFSMI-Editを構築した。
LLM画像編集におけるSOTA(State-of-the-art)の精度が向上し,本手法の有効性が明らかとなった。
コードとデータはhttps://github.com/A-new-b/flex_editで確認できる。
関連論文リスト
- SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - Click2Mask: Local Editing with Dynamic Mask Generation [23.89536337989824]
Click2Maskは、単一の参照ポイントしか必要とせず、ローカル編集プロセスを単純化する新しいアプローチである。
我々の実験は、Click2Maskがユーザーの努力を最小限に抑えるだけでなく、競争力や優れたローカル画像操作結果を提供することを示した。
論文 参考訳(メタデータ) (2024-09-12T17:59:04Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - InstructEdit: Improving Automatic Masks for Diffusion-based Image
Editing With User Instructions [46.88926203020054]
InstructEdit というフレームワークを提案し,ユーザ命令に基づいてきめ細かい編集を行う。
本手法は, より微細な編集アプリケーションにおいて, 従来の編集方法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-29T12:24:58Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。