論文の概要: Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations
- arxiv url: http://arxiv.org/abs/2406.00121v1
- Date: Fri, 31 May 2024 18:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:33:32.408017
- Title: Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations
- Title(参考訳): ビジュアルクリエイティビティの強化:画像編集推奨のための視覚言語アシスタント
- Authors: Tiancheng Shen, Jun Hao Liew, Long Mai, Lu Qi, Jiashi Feng, Jiaya Jia,
- Abstract要約: IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
- 参考スコア(独自算出の注目度): 109.65267337037842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in text-based image generation and editing have revolutionized content creation, enabling users to create impressive content from imaginative text prompts. However, existing methods are not designed to work well with the oversimplified prompts that are often encountered in typical scenarios when users start their editing with only vague or abstract purposes in mind. Those scenarios demand elaborate ideation efforts from the users to bridge the gap between such vague starting points and the detailed creative ideas needed to depict the desired results. In this paper, we introduce the task of Image Editing Recommendation (IER). This task aims to automatically generate diverse creative editing instructions from an input image and a simple prompt representing the users' under-specified editing purpose. To this end, we introduce Creativity-Vision Language Assistant~(Creativity-VLA), a multimodal framework designed specifically for edit-instruction generation. We train Creativity-VLA on our edit-instruction dataset specifically curated for IER. We further enhance our model with a novel 'token-for-localization' mechanism, enabling it to support both global and local editing operations. Our experimental results demonstrate the effectiveness of \ours{} in suggesting instructions that not only contain engaging creative elements but also maintain high relevance to both the input image and the user's initial hint.
- Abstract(参考訳): テキストベースの画像生成と編集の進歩は、ユーザーが想像力のあるテキストプロンプトから印象的なコンテンツを作成できるように、コンテンツの創造に革命をもたらした。
しかし、既存のメソッドは、ユーザーが曖昧で抽象的な目的だけを念頭に編集を開始するとき、典型的なシナリオでしばしば発生する過度に単純化されたプロンプトとうまく機能するようには設計されていない。
これらのシナリオは、ユーザから、そのようなあいまいな出発点と、望ましい結果を記述するために必要な詳細な創造的アイデアのギャップを埋めるために、精巧なアイデアの努力を必要とします。
本稿では,画像編集レコメンデーション(IER)の課題を紹介する。
本課題は、入力画像から多様なクリエイティブな編集指示を自動的に生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することである。
そこで我々はCreative-Vision Language Assistant~(Creativity-VLA)を紹介した。
IER用に特別にキュレートされた編集命令データセットでCreative-VLAをトレーニングします。
さらに,グローバルな編集操作とローカルな編集操作の両方をサポートできるように,新しい「トーケン・フォー・ローカライゼーション」機構でモデルをさらに強化する。
提案手法の有効性を実験的に検証し, 創造的要素を含むだけでなく, 入力画像とユーザの初期ヒントの両方に高い関連性を保っていることを示す。
関連論文リスト
- Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - Adjusting Image Attributes of Localized Regions with Low-level Dialogue [83.06971746641686]
NLIEの低レベル命令を探索するタスク指向対話システムを開発した。
我々のシステムは、編集操作のレベルに基づいて言語を基盤とし、ユーザーが選択するオプションを提案する。
分析の結果,提案した低レベル言語インタフェースの利用に一般的に適応していることがわかった。
論文 参考訳(メタデータ) (2020-02-11T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。