論文の概要: User-friendly Image Editing with Minimal Text Input: Leveraging
Captioning and Injection Techniques
- arxiv url: http://arxiv.org/abs/2306.02717v1
- Date: Mon, 5 Jun 2023 09:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:00:45.079736
- Title: User-friendly Image Editing with Minimal Text Input: Leveraging
Captioning and Injection Techniques
- Title(参考訳): 最小テキスト入力によるユーザフレンドリーな画像編集:キャプションとインジェクションの活用
- Authors: Sunwoo Kim, Wooseok Jang, Hyunsu Kim, Junho Kim, Yunjey Choi,
Seungryong Kim, Gayeong Lee
- Abstract要約: テキスト駆動画像編集は拡散モデルにおいて顕著な成功を収めた。
既存の手法では、ユーザの記述がソースイメージのコンテキストを十分に基礎づけていると仮定する。
本稿では,素早い生成フレームワークを組み合わせることで,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 32.82206298102458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-driven image editing in diffusion models has shown remarkable
success. However, the existing methods assume that the user's description
sufficiently grounds the contexts in the source image, such as objects,
background, style, and their relations. This assumption is unsuitable for
real-world applications because users have to manually engineer text prompts to
find optimal descriptions for different images. From the users' standpoint,
prompt engineering is a labor-intensive process, and users prefer to provide a
target word for editing instead of a full sentence. To address this problem, we
first demonstrate the importance of a detailed text description of the source
image, by dividing prompts into three categories based on the level of semantic
details. Then, we propose simple yet effective methods by combining prompt
generation frameworks, thereby making the prompt engineering process more
user-friendly. Extensive qualitative and quantitative experiments demonstrate
the importance of prompts in text-driven image editing and our method is
comparable to ground-truth prompts.
- Abstract(参考訳): 最近の拡散モデルにおけるテキスト駆動画像編集は顕著な成功を示している。
しかし,既存の手法では,オブジェクトや背景,スタイル,それらの関係など,ユーザの記述がソースイメージのコンテキストを十分に理解していると仮定している。
この仮定は、ユーザがテキストプロンプトを手作業で設計し、異なる画像の最適な記述を見つける必要があるため、現実のアプリケーションには適さない。
ユーザの観点からは、プロンプトエンジニアリングは労働集約的なプロセスであり、ユーザは全文ではなく、編集対象語の提供を好む。
この問題に対処するために,まず,意味的詳細度に基づいてプロンプトを3つのカテゴリに分割することで,ソース画像の詳細なテキスト記述の重要性を実証する。
そこで本研究では,プロンプト生成フレームワークを組み合わせることで,ユーザフレンドリなプロンプトエンジニアリングプロセスを実現する手法を提案する。
テキスト駆動画像編集におけるプロンプトの重要性を質的・定量的に検証し,本手法は地中プロンプトに匹敵する。
関連論文リスト
- Learning to Customize Text-to-Image Diffusion In Diverse Context [23.239646132590043]
殆どのテキスト・ツー・イメージのカスタマイズ技術は、最小限のコンテキストでキャプチャされた少数の人物のコンセプトイメージを微調整する。
我々は、文脈的にリッチなテキストプロンプトを単に作成することで、これらの個人概念のコンテキストを多様化する。
驚くべきことに、この単純で費用対効果の高い手法は、テキスト空間における意味的アライメントを大幅に改善する。
当社のアプローチではアーキテクチャの変更は一切必要とせず、既存のテキスト・ツー・イメージのカスタマイズ手法と互換性が高い。
論文 参考訳(メタデータ) (2024-10-14T00:53:59Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Manipulating Embeddings of Stable Diffusion Prompts [22.10069408287608]
本稿では,プロンプトテキストの代わりにプロンプトの埋め込みを操作する新しい手法を提案し,解析する。
提案手法は退屈度が低く,結果のイメージが好まれることが多い。
論文 参考訳(メタデータ) (2023-08-23T10:59:41Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Adjusting Image Attributes of Localized Regions with Low-level Dialogue [83.06971746641686]
NLIEの低レベル命令を探索するタスク指向対話システムを開発した。
我々のシステムは、編集操作のレベルに基づいて言語を基盤とし、ユーザーが選択するオプションを提案する。
分析の結果,提案した低レベル言語インタフェースの利用に一般的に適応していることがわかった。
論文 参考訳(メタデータ) (2020-02-11T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。