Fugu-MT 論文翻訳(概要): PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like Interactions

論文の概要: PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like Interactions

arxiv url: http://arxiv.org/abs/2308.05184v1
Date: Wed, 9 Aug 2023 18:41:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 14:40:01.960739
Title: PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like Interactions
Title（参考訳）: PromptPaint: ペイント媒体のようなインタラクションによるテキストと画像のステアリング
Authors: John Joon Young Chung, Eytan Adar
Abstract要約: PromptPaintを使えば、ユーザーは難しい概念を表現するプロンプトを混ぜることができる。生成モデルにおいて,プロンプトの混合,トレードオフの設計,社会技術的課題など,さまざまなアプローチを特徴付ける。
参考スコア（独自算出の注目度）: 12.792576041526287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While diffusion-based text-to-image (T2I) models provide a simple and powerful way to generate images, guiding this generation remains a challenge. For concepts that are difficult to describe through language, users may struggle to create prompts. Moreover, many of these models are built as end-to-end systems, lacking support for iterative shaping of the image. In response, we introduce PromptPaint, which combines T2I generation with interactions that model how we use colored paints. PromptPaint allows users to go beyond language to mix prompts that express challenging concepts. Just as we iteratively tune colors through layered placements of paint on a physical canvas, PromptPaint similarly allows users to apply different prompts to different canvas areas and times of the generative process. Through a set of studies, we characterize different approaches for mixing prompts, design trade-offs, and socio-technical challenges for generative models. With PromptPaint we provide insight into future steerable generative tools.
Abstract（参考訳）: 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、画像を生成するためのシンプルで強力な方法を提供するが、この生成を導くことは依然として課題である。言語を通して説明が難しい概念では、ユーザーはプロンプトを作成するのに苦労する。さらに、これらのモデルの多くはエンドツーエンドシステムとして構築されており、反復的な画像形成のサポートが欠如している。これに対し、T2I生成とカラーペイントの使い方をモデル化したインタラクションを組み合わせたPromptPaintを紹介します。 promptpaintを使えば、ユーザーは言語を超えて難しい概念を表現するプロンプトを混ぜることができる。物理的キャンバスにペンキを層状に配置して色を反復的に調整するのと同じように、promplypaintも同様に、異なるキャンバス領域や生成プロセスの時間に対して異なるプロンプトを適用することができる。一連の研究を通じて、プロンプトの混合、設計トレードオフ、生成モデルに対する社会技術的課題の異なるアプローチを特徴付ける。 promptpaintでは、将来のステアブル生成ツールに関する洞察を提供します。

関連論文リスト

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-05-23T06:44:26Z)
I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask Inpainting [8.94249680213101]
塗装は、画像の欠落した領域や破損した領域を埋めて、周囲のコンテンツやスタイルとシームレスにブレンドすることに焦点を当てている。本稿では,異なるプロンプトを用いて複数の領域を同時に塗布するマルチマスク塗装の新たな課題を紹介する。私たちのパイプラインは、創造的で正確なインペイント結果を提供します。
論文参考訳（メタデータ） (2024-11-28T10:55:09Z)
VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文参考訳（メタデータ） (2024-06-03T07:14:19Z)
Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。 T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文参考訳（メタデータ） (2024-03-28T02:35:53Z)
Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。インペイントプロセスのガイドには自然言語命令を使用する。 Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文参考訳（メタデータ） (2024-01-18T18:59:13Z)
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models [59.01600111737628]
HD-Painterはトレーニングフリーのアプローチで、プロンプトを正確に追従し、高解像度の画像インパインティングにコヒーレントにスケールする。そこで我々は,自己注意スコアを向上するPrompt-Aware Introverted Attention (PAIntA) 層を設計した。実験の結果,HD-Painterは既存の最先端アプローチを定量的に,質的に超越していることがわかった。
論文参考訳（メタデータ） (2023-12-21T18:09:30Z)
A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting [38.53807472111521]
我々は,複数の塗装タスクに優れる最初の高品質で多用途な塗装モデルであるPowerPaintを紹介する。本稿では,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。我々は, 形状誘導型物体の塗布を制御可能とし, 形状誘導型アプリケーションにおけるモデルの適用性を高めるために, プロンプト技術を活用している。
論文参考訳（メタデータ） (2023-12-06T16:34:46Z)
Uni-paint: A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。 Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文参考訳（メタデータ） (2023-10-11T06:11:42Z)
PaintSeg: Training-free Segmentation via Painting [50.17936803209125]
PaintSegは、トレーニングなしでオブジェクトをセグメンテーションするための新しい教師なしのメソッドである。前者は前景をマスキングして背景を埋め、後者は前景の欠落部分を回復しながら背景をマスキングする。実験の結果、PaintSegは、粗いマスクプロンプト、ボックスプロンプト、ポイントプロンプトセグメンテーションタスクにおいて、既存のアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-30T20:43:42Z)
AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文参考訳（メタデータ） (2022-09-07T13:53:54Z)
Intelli-Paint: Towards Developing Human-like Painting Agents [19.261822105543175]
そこで本研究では,より人間的な絵画スタイルを示しながら,出力キャンバスの生成を学習する新しい絵画手法を提案する。 Intelli-Paintは1)プログレッシブな階層化戦略から成り、エージェントはまず、各前景オブジェクトをプログレッシブな方法で追加する前に、自然の背景を表現できる。また,筆画エージェントが各画像領域にセマンティック・アウェアで注目を移すのに役立つ,新しいシーケンシャルなブラシストローク誘導戦略を導入する。
論文参考訳（メタデータ） (2021-12-16T14:56:32Z)
In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロパッチをレンダリングします。
論文参考訳（メタデータ） (2021-04-01T17:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。