論文の概要: Gaud\'i: Conversational Interactions with Deep Representations to
Generate Image Collections
- arxiv url: http://arxiv.org/abs/2112.04404v1
- Date: Sun, 5 Dec 2021 07:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:31:05.635711
- Title: Gaud\'i: Conversational Interactions with Deep Representations to
Generate Image Collections
- Title(参考訳): Gaud\'i: 画像コレクションを生成するためのディープ表現との対話的インタラクション
- Authors: Victor S. Bursztyn, Jennifer Healey, Vishwa Vinay
- Abstract要約: Gaud'iは、デザイナーが自然言語を使ってインスピレーションのある画像を探すのを助けるために開発された。
私たちの試みは、デザイナーがクライアントに創造的な方向性を示すときに伝えるストーリーとして、ムードボードを表現しようとする最初の試みです。
- 参考スコア(独自算出の注目度): 14.012745542766506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Based on recent advances in realistic language modeling (GPT-3) and
cross-modal representations (CLIP), Gaud\'i was developed to help designers
search for inspirational images using natural language. In the early stages of
the design process, with the goal of eliciting a client's preferred creative
direction, designers will typically create thematic collections of
inspirational images called "mood-boards". Creating a mood-board involves
sequential image searches which are currently performed using keywords or
images. Gaud\'i transforms this process into a conversation where the user is
gradually detailing the mood-board's theme. This representation allows our AI
to generate new search queries from scratch, straight from a project briefing,
following a theme hypothesized by GPT-3. Compared to previous computational
approaches to mood-board creation, to the best of our knowledge, ours is the
first attempt to represent mood-boards as the stories that designers tell when
presenting a creative direction to a client.
- Abstract(参考訳): 現実的な言語モデリング (GPT-3) とクロスモーダル表現 (CLIP) の最近の進歩に基づき、Gud\'i は自然言語を用いたインスピレーション画像の検索を支援するために開発された。
デザインプロセスの初期段階では、クライアントの好みの創造的な方向性を引き出すことを目標に、デザイナーは通常「ムードボード」と呼ばれるインスピレーション的なイメージのテーマ的なコレクションを作成する。
ムードボードの作成には、現在キーワードやイメージを使用して実行されるシーケンシャルなイメージ検索が含まれる。
Gaud\'iはこのプロセスをユーザが徐々にムードボードのテーマを詳述する会話に変換する。
この表現により、GPT-3で仮定されたテーマに従って、プロジェクトブリーフィングから直接、AIがゼロから新しい検索クエリを生成することができる。
これまでのムードボード作成に対する計算手法と比較すると、私たちの知る限りでは、私たちの試みは、デザイナーがクライアントに創造的な方向性を示すときに伝えるストーリーとして、ムードボードを表現しようとする最初の試みである。
関連論文リスト
- Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Surrealistic-like Image Generation with Vision-Language Models [4.66729174362509]
本稿では、視覚言語生成モデルを用いて、超現実主義運動における絵画のスタイルにおける画像の生成について検討する。
本研究は、様々な画像生成設定と異なるモデルに基づく画像の生成から始まる。
我々は、選択したモデルの性能を評価し、そのような画像を生成する能力について貴重な知見を得る。
論文 参考訳(メタデータ) (2024-12-18T22:03:26Z) - GPTDrawer: Enhancing Visual Synthesis through ChatGPT [4.79996063469789]
GPTDrawerは、GPTベースのモデルの生成技術を活用して、視覚合成プロセスを強化する革新的なパイプラインである。
提案手法では,キーワード抽出,意味解析,画像テキストの一致評価を用いて,入力プロンプトを反復的に洗練するアルゴリズムを用いる。
その結果,ユーザ定義のプロンプトに従って生成した画像の忠実度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2024-12-11T00:42:44Z) - Influencer: Empowering Everyday Users in Creating Promotional Posts via AI-infused Exploration and Customization [11.9449656506593]
Influenは、初心者クリエイターが高品質なプロモーションポストデザインを作るのを助けるインタラクティブなツールだ。
インフルエンサー内では,ユーザが直感的に新しいアイデアを生成できる多次元レコメンデーションフレームワークをコントリビュートする。
Influentialは、コンテキスト認識の画像とキャプション探索をサポートする総合的なプロモーションポストデザインシステムを実装している。
論文 参考訳(メタデータ) (2024-07-20T16:27:49Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Words as Art Materials: Generating Paintings with Sequential GANs [8.249180979158815]
大規模な分散データセット上での芸術画像の生成について検討する。
このデータセットには、形状、色、内容など、バリエーションのあるイメージが含まれている。
本稿では,逐次生成適応型ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-07-08T19:17:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。