論文の概要: ClickDiffusion: Harnessing LLMs for Interactive Precise Image Editing
- arxiv url: http://arxiv.org/abs/2404.04376v1
- Date: Fri, 5 Apr 2024 19:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 21:28:04.014553
- Title: ClickDiffusion: Harnessing LLMs for Interactive Precise Image Editing
- Title(参考訳): ClickDiffusion:インタラクティブな精密画像編集のためのLLMのハーネス化
- Authors: Alec Helbling, Seongmin Lee, Polo Chau,
- Abstract要約: ClickDiffusionは、自然言語命令とユーザが直接操作インターフェースを通じて提供する視覚的フィードバックを組み合わせる。
我々は、画像とマルチモーダル命令の両方をテキスト表現にシリアライズすることにより、LLMを活用して画像のレイアウトと外観を正確に変換できることを実証した。
- 参考スコア(独自算出の注目度): 3.1165821291812295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, researchers have proposed powerful systems for generating and manipulating images using natural language instructions. However, it is difficult to precisely specify many common classes of image transformations with text alone. For example, a user may wish to change the location and breed of a particular dog in an image with several similar dogs. This task is quite difficult with natural language alone, and would require a user to write a laboriously complex prompt that both disambiguates the target dog and describes the destination. We propose ClickDiffusion, a system for precise image manipulation and generation that combines natural language instructions with visual feedback provided by the user through a direct manipulation interface. We demonstrate that by serializing both an image and a multi-modal instruction into a textual representation it is possible to leverage LLMs to perform precise transformations of the layout and appearance of an image. Code available at https://github.com/poloclub/ClickDiffusion.
- Abstract(参考訳): 近年,自然言語による画像生成と操作のための強力なシステムを提案する。
しかし、テキストだけでは画像変換の多くの共通クラスを正確に特定することは困難である。
例えば、ユーザーは、いくつかの類似した犬と一緒に画像中の特定の犬の位置と繁殖を変更したいかもしれない。
このタスクは自然言語だけでは非常に困難であり、ターゲット犬を曖昧にし、目的地を記述するためには、複雑に複雑なプロンプトを書く必要がある。
ClickDiffusionは、自然言語命令とユーザからの視覚フィードバックを直接操作インタフェースで組み合わせた、正確な画像操作と生成のためのシステムである。
我々は、画像とマルチモーダル命令の両方をテキスト表現にシリアライズすることにより、LLMを活用して画像のレイアウトや外観を正確に変換できることを実証した。
コードはhttps://github.com/poloclub/ClickDiffusion.comで公開されている。
関連論文リスト
- Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。
PRIPは精細化処理を2つのデータリッチなタスクに分解する。
これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文 参考訳(メタデータ) (2024-06-28T22:19:24Z) - Point and Instruct: Enabling Precise Image Editing by Unifying Direct
Manipulation and Text Instructions [3.5027259853255215]
本稿では,親しみやすい直接操作とテキスト操作をシームレスに結合するシステムであるPoint and Instructを紹介する。
本システムでは,オブジェクトや記述位置を視覚的にマークし,テキストによる指示で参照することができる。
論文 参考訳(メタデータ) (2024-02-05T16:23:07Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。
テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。
我々の手法は、最先端のIIR手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-16T10:33:08Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。