論文の概要: PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions
- arxiv url: http://arxiv.org/abs/2308.05184v1
- Date: Wed, 9 Aug 2023 18:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 14:40:01.960739
- Title: PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like
Interactions
- Title(参考訳): PromptPaint: ペイント媒体のようなインタラクションによるテキストと画像のステアリング
- Authors: John Joon Young Chung, Eytan Adar
- Abstract要約: PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。
生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
- 参考スコア(独自算出の注目度): 12.792576041526287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion-based text-to-image (T2I) models provide a simple and
powerful way to generate images, guiding this generation remains a challenge.
For concepts that are difficult to describe through language, users may
struggle to create prompts. Moreover, many of these models are built as
end-to-end systems, lacking support for iterative shaping of the image. In
response, we introduce PromptPaint, which combines T2I generation with
interactions that model how we use colored paints. PromptPaint allows users to
go beyond language to mix prompts that express challenging concepts. Just as we
iteratively tune colors through layered placements of paint on a physical
canvas, PromptPaint similarly allows users to apply different prompts to
different canvas areas and times of the generative process. Through a set of
studies, we characterize different approaches for mixing prompts, design
trade-offs, and socio-technical challenges for generative models. With
PromptPaint we provide insight into future steerable generative tools.
- Abstract(参考訳): 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、画像を生成するためのシンプルで強力な方法を提供するが、この生成を導くことは依然として課題である。
言語を通して説明が難しい概念では、ユーザーはプロンプトを作成するのに苦労する。
さらに、これらのモデルの多くはエンドツーエンドシステムとして構築されており、反復的な画像形成のサポートが欠如している。
これに対し、T2I生成とカラーペイントの使い方をモデル化したインタラクションを組み合わせたPromptPaintを紹介します。
promptpaintを使えば、ユーザーは言語を超えて難しい概念を表現するプロンプトを混ぜることができる。
物理的キャンバスにペンキを層状に配置して色を反復的に調整するのと同じように、promplypaintも同様に、異なるキャンバス領域や生成プロセスの時間に対して異なるプロンプトを適用することができる。
一連の研究を通じて、プロンプトの混合、設計トレードオフ、生成モデルに対する社会技術的課題の異なるアプローチを特徴付ける。
promptpaintでは、将来のステアブル生成ツールに関する洞察を提供します。
関連論文リスト
- Towards Language-Driven Video Inpainting via Multimodal Large Language
Models [119.68736808663685]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image
Inpainting with Diffusion Models [62.53428849502191]
HD-Painterはトレーニング不要のアプローチで、プロンプトとコヒーレントなスケールで高解像度画像のインペイントを行う。
本稿では,Prompt-Aware Introverted Attention (PAIntA) レイヤについて紹介する。
また,ポストホックサンプリング戦略をDDIMの一般的な形式にシームレスに統合するRASG(Reweighting Attention Score Guidance)機構を導入する。
論文 参考訳(メタデータ) (2023-12-21T18:09:30Z) - A Task is Worth One Word: Learning with Task Prompts for High-Quality
Versatile Image Inpainting [41.34541754387277]
両タスクで優れる最初の高品質で多用途なインペイントモデルであるPowerPaintを紹介します。
まず、学習可能なタスクプロンプトと調整された微調整戦略を導入する。
第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。
論文 参考訳(メタデータ) (2023-12-06T16:34:46Z) - Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。
Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。
提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-10-11T06:11:42Z) - PaintSeg: Training-free Segmentation via Painting [50.17936803209125]
PaintSegは、トレーニングなしでオブジェクトをセグメンテーションするための新しい教師なしのメソッドである。
前者は前景をマスキングして背景を埋め、後者は前景の欠落部分を回復しながら背景をマスキングする。
実験の結果、PaintSegは、粗いマスクプロンプト、ボックスプロンプト、ポイントプロンプトセグメンテーションタスクにおいて、既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-30T20:43:42Z) - Paint it Black: Generating paintings from text descriptions [0.0]
与えられたテキストのプロンプトからフォトリアリスティックな画像を生成し、絵のスタイルを実際の画像に移し、まるでアーティストによって行われたかのように見せるという2つのタスクが何度も解決され、それを達成するためのいくつかのアプローチが提案されている。
本稿では,2つの異なる戦略を探求し,それらを統合した。
第1の戦略は、フォトリアリスティック画像を生成し、スタイル転送を適用し、第2の戦略は、キャプションで実画像上で画像生成モデルをトレーニングし、後でキャプションされた絵に微調整することである。
論文 参考訳(メタデータ) (2023-02-17T11:07:53Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - Intelli-Paint: Towards Developing Human-like Painting Agents [19.261822105543175]
そこで本研究では,より人間的な絵画スタイルを示しながら,出力キャンバスの生成を学習する新しい絵画手法を提案する。
Intelli-Paintは1)プログレッシブな階層化戦略から成り、エージェントはまず、各前景オブジェクトをプログレッシブな方法で追加する前に、自然の背景を表現できる。
また,筆画エージェントが各画像領域にセマンティック・アウェアで注目を移すのに役立つ,新しいシーケンシャルなブラシストローク誘導戦略を導入する。
論文 参考訳(メタデータ) (2021-12-16T14:56:32Z) - In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。
本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。
私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロ パッチをレンダリングします。
論文 参考訳(メタデータ) (2021-04-01T17:59:10Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。