論文の概要: Gaud\'i: Conversational Interactions with Deep Representations to
Generate Image Collections
- arxiv url: http://arxiv.org/abs/2112.04404v1
- Date: Sun, 5 Dec 2021 07:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:31:05.635711
- Title: Gaud\'i: Conversational Interactions with Deep Representations to
Generate Image Collections
- Title(参考訳): Gaud\'i: 画像コレクションを生成するためのディープ表現との対話的インタラクション
- Authors: Victor S. Bursztyn, Jennifer Healey, Vishwa Vinay
- Abstract要約: Gaud'iは、デザイナーが自然言語を使ってインスピレーションのある画像を探すのを助けるために開発された。
私たちの試みは、デザイナーがクライアントに創造的な方向性を示すときに伝えるストーリーとして、ムードボードを表現しようとする最初の試みです。
- 参考スコア(独自算出の注目度): 14.012745542766506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Based on recent advances in realistic language modeling (GPT-3) and
cross-modal representations (CLIP), Gaud\'i was developed to help designers
search for inspirational images using natural language. In the early stages of
the design process, with the goal of eliciting a client's preferred creative
direction, designers will typically create thematic collections of
inspirational images called "mood-boards". Creating a mood-board involves
sequential image searches which are currently performed using keywords or
images. Gaud\'i transforms this process into a conversation where the user is
gradually detailing the mood-board's theme. This representation allows our AI
to generate new search queries from scratch, straight from a project briefing,
following a theme hypothesized by GPT-3. Compared to previous computational
approaches to mood-board creation, to the best of our knowledge, ours is the
first attempt to represent mood-boards as the stories that designers tell when
presenting a creative direction to a client.
- Abstract(参考訳): 現実的な言語モデリング (GPT-3) とクロスモーダル表現 (CLIP) の最近の進歩に基づき、Gud\'i は自然言語を用いたインスピレーション画像の検索を支援するために開発された。
デザインプロセスの初期段階では、クライアントの好みの創造的な方向性を引き出すことを目標に、デザイナーは通常「ムードボード」と呼ばれるインスピレーション的なイメージのテーマ的なコレクションを作成する。
ムードボードの作成には、現在キーワードやイメージを使用して実行されるシーケンシャルなイメージ検索が含まれる。
Gaud\'iはこのプロセスをユーザが徐々にムードボードのテーマを詳述する会話に変換する。
この表現により、GPT-3で仮定されたテーマに従って、プロジェクトブリーフィングから直接、AIがゼロから新しい検索クエリを生成することができる。
これまでのムードボード作成に対する計算手法と比較すると、私たちの知る限りでは、私たちの試みは、デザイナーがクライアントに創造的な方向性を示すときに伝えるストーリーとして、ムードボードを表現しようとする最初の試みである。
関連論文リスト
- Influencer: Empowering Everyday Users in Creating Promotional Posts via AI-infused Exploration and Customization [11.9449656506593]
Influenは、初心者クリエイターが高品質なプロモーションポストデザインを作るのを助けるインタラクティブなツールだ。
インフルエンサー内では,ユーザが直感的に新しいアイデアを生成できる多次元レコメンデーションフレームワークをコントリビュートする。
Influentialは、コンテキスト認識の画像とキャプション探索をサポートする総合的なプロモーションポストデザインシステムを実装している。
論文 参考訳(メタデータ) (2024-07-20T16:27:49Z) - MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis [65.78359025027457]
MetaDesignerは、Large Language Models(LLM)の強みを活用して、ユーザエンゲージメントを中心としたデザインパラダイムを推進することによって、芸術的なタイポグラフィに革命をもたらす。
総合的なフィードバックメカニズムは、マルチモーダルモデルとユーザ評価からの洞察を活用して、設計プロセスを反復的に洗練し、拡張する。
実証的な検証は、MetaDesignerが様々なWordArtアプリケーションに効果的に機能し、審美的に魅力的でコンテキストに敏感な結果を生み出す能力を強調している。
論文 参考訳(メタデータ) (2024-06-28T11:58:26Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - Teaching Text-to-Image Models to Communicate in Dialog [44.76942024105259]
本稿では,イノベーティブな対話・画像生成タスクに焦点をあてる。
この問題に対処するために、我々は最先端のテキスト・画像生成モデルのトップに調整された微調整アプローチを設計する。
我々のアプローチは、3つの最先端の事前訓練されたテキスト-画像生成バックボーンで一貫した、そして顕著な改善をもたらす。
論文 参考訳(メタデータ) (2023-09-27T09:33:16Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Exploring Latent Dimensions of Crowd-sourced Creativity [0.02294014185517203]
私たちは、AIベースの最大のクリエイティビティプラットフォームであるArtbreederの開発を行っています。
このプラットフォーム上で生成された画像の潜在次元を探索し、画像を操作するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T19:24:52Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Words as Art Materials: Generating Paintings with Sequential GANs [8.249180979158815]
大規模な分散データセット上での芸術画像の生成について検討する。
このデータセットには、形状、色、内容など、バリエーションのあるイメージが含まれている。
本稿では,逐次生成適応型ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-07-08T19:17:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。