論文の概要: PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions
- arxiv url: http://arxiv.org/abs/2308.05184v1
- Date: Wed, 9 Aug 2023 18:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 14:40:01.960739
- Title: PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions
- Title(参考訳): PromptPaint: ペイント媒体のようなインタラクションによるテキストと画像のステアリング
- Authors: John Joon Young Chung, Eytan Adar
- Abstract要約: PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
- 参考スコア(独自算出の注目度): 12.792576041526287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion-based text-to-image (T2I) models provide a simple and
powerful way to generate images, guiding this generation remains a challenge.
For concepts that are difficult to describe through language, users may
struggle to create prompts. Moreover, many of these models are built as
end-to-end systems, lacking support for iterative shaping of the image. In
response, we introduce PromptPaint, which combines T2I generation with
interactions that model how we use colored paints. PromptPaint allows users to
go beyond language to mix prompts that express challenging concepts. Just as we
iteratively tune colors through layered placements of paint on a physical
canvas, PromptPaint similarly allows users to apply different prompts to
different canvas areas and times of the generative process. Through a set of
studies, we characterize different approaches for mixing prompts, design
trade-offs, and socio-technical challenges for generative models. With
PromptPaint we provide insight into future steerable generative tools.
- Abstract(参考訳): 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、画像を生成するためのシンプルで強力な方法を提供するが、この生成を導くことは依然として課題である。
言語を通して説明が難しい概念では、ユーザーはプロンプトを作成するのに苦労する。
さらに、これらのモデルの多くはエンドツーエンドシステムとして構築されており、反復的な画像形成のサポートが欠如している。
これに対し、T2I生成とカラーペイントの使い方をモデル化したインタラクションを組み合わせたPromptPaintを紹介します。
promptpaintを使えば、ユーザーは言語を超えて難しい概念を表現するプロンプトを混ぜることができる。
物理的キャンバスにペンキを層状に配置して色を反復的に調整するのと同じように、promplypaintも同様に、異なるキャンバス領域や生成プロセスの時間に対して異なるプロンプトを適用することができる。
一連の研究を通じて、プロンプトの混合、設計トレードオフ、生成モデルに対する社会技術的課題の異なるアプローチを特徴付ける。
promptpaintでは、将来のステアブル生成ツールに関する洞察を提供します。
関連論文リスト
- I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask Inpainting [8.94249680213101]
塗装は、画像の欠落した領域や破損した領域を埋めて、周囲のコンテンツやスタイルとシームレスにブレンドすることに焦点を当てている。
本稿では,異なるプロンプトを用いて複数の領域を同時に塗布するマルチマスク塗装の新たな課題を紹介する。
私たちのパイプラインは、創造的で正確なインペイント結果を提供します。
論文 参考訳(メタデータ) (2024-11-28T10:55:09Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models [59.01600111737628]
HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。
そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。
実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T18:09:30Z) - A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting [38.53807472111521]
我々は,複数の塗装タスクに優れる最初の高品質で多用途な塗装モデルであるPowerPaintを紹介する。
本稿では,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
我々は, 形状誘導型物体の塗布を制御可能とし, 形状誘導型アプリケーションにおけるモデルの適用性を高めるために, プロンプト技術を活用している。
論文 参考訳(メタデータ) (2023-12-06T16:34:46Z) - Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。
Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。
提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-10-11T06:11:42Z) - PaintSeg: Training-free Segmentation via Painting [50.17936803209125]
PaintSegは、トレーニングなしでオブジェクトをセグメンテーションするための新しい教師なしのメソッドである。
前者は前景をマスキングして背景を埋め、後者は前景の欠落部分を回復しながら背景をマスキングする。
実験の結果、PaintSegは、粗いマスクプロンプト、ボックスプロンプト、ポイントプロンプトセグメンテーションタスクにおいて、既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-30T20:43:42Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。
本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。
私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロ パッチをレンダリングします。
論文 参考訳(メタデータ) (2021-04-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。