Fugu-MT 論文翻訳(概要): Gaud\'i: Conversational Interactions with Deep Representations to Generate Image Collections

論文の概要: Gaud\'i: Conversational Interactions with Deep Representations to Generate Image Collections

arxiv url: http://arxiv.org/abs/2112.04404v1
Date: Sun, 5 Dec 2021 07:02:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-09 14:31:05.635711
Title: Gaud\'i: Conversational Interactions with Deep Representations to Generate Image Collections
Title（参考訳）: Gaud\'i: 画像コレクションを生成するためのディープ表現との対話的インタラクション
Authors: Victor S. Bursztyn, Jennifer Healey, Vishwa Vinay
Abstract要約: Gaud'iは、デザイナーが自然言語を使ってインスピレーションのある画像を探すのを助けるために開発された。私たちの試みは、デザイナーがクライアントに創造的な方向性を示すときに伝えるストーリーとして、ムードボードを表現しようとする最初の試みです。
参考スコア（独自算出の注目度）: 14.012745542766506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Based on recent advances in realistic language modeling (GPT-3) and cross-modal representations (CLIP), Gaud\'i was developed to help designers search for inspirational images using natural language. In the early stages of the design process, with the goal of eliciting a client's preferred creative direction, designers will typically create thematic collections of inspirational images called "mood-boards". Creating a mood-board involves sequential image searches which are currently performed using keywords or images. Gaud\'i transforms this process into a conversation where the user is gradually detailing the mood-board's theme. This representation allows our AI to generate new search queries from scratch, straight from a project briefing, following a theme hypothesized by GPT-3. Compared to previous computational approaches to mood-board creation, to the best of our knowledge, ours is the first attempt to represent mood-boards as the stories that designers tell when presenting a creative direction to a client.
Abstract（参考訳）: 現実的な言語モデリング (GPT-3) とクロスモーダル表現 (CLIP) の最近の進歩に基づき、Gud\'i は自然言語を用いたインスピレーション画像の検索を支援するために開発された。デザインプロセスの初期段階では、クライアントの好みの創造的な方向性を引き出すことを目標に、デザイナーは通常「ムードボード」と呼ばれるインスピレーション的なイメージのテーマ的なコレクションを作成する。ムードボードの作成には、現在キーワードやイメージを使用して実行されるシーケンシャルなイメージ検索が含まれる。 Gaud\'iはこのプロセスをユーザが徐々にムードボードのテーマを詳述する会話に変換する。この表現により、GPT-3で仮定されたテーマに従って、プロジェクトブリーフィングから直接、AIがゼロから新しい検索クエリを生成することができる。これまでのムードボード作成に対する計算手法と比較すると、私たちの知る限りでは、私たちの試みは、デザイナーがクライアントに創造的な方向性を示すときに伝えるストーリーとして、ムードボードを表現しようとする最初の試みである。

関連論文リスト

Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。 T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文参考訳（メタデータ） (2025-01-26T19:01:19Z)
Surrealistic-like Image Generation with Vision-Language Models [4.66729174362509]
本稿では、視覚言語生成モデルを用いて、超現実主義運動における絵画のスタイルにおける画像の生成について検討する。本研究は、様々な画像生成設定と異なるモデルに基づく画像の生成から始まる。我々は、選択したモデルの性能を評価し、そのような画像を生成する能力について貴重な知見を得る。
論文参考訳（メタデータ） (2024-12-18T22:03:26Z)
GPTDrawer: Enhancing Visual Synthesis through ChatGPT [4.79996063469789]
GPTDrawerは、GPTベースのモデルの生成技術を活用して、視覚合成プロセスを強化する革新的なパイプラインである。提案手法では,キーワード抽出,意味解析,画像テキストの一致評価を用いて,入力プロンプトを反復的に洗練するアルゴリズムを用いる。その結果,ユーザ定義のプロンプトに従って生成した画像の忠実度が著しく向上したことを示す。
論文参考訳（メタデータ） (2024-12-11T00:42:44Z)
Influencer: Empowering Everyday Users in Creating Promotional Posts via AI-infused Exploration and Customization [11.9449656506593]
Influenは、初心者クリエイターが高品質なプロモーションポストデザインを作るのを助けるインタラクティブなツールだ。インフルエンサー内では,ユーザが直感的に新しいアイデアを生成できる多次元レコメンデーションフレームワークをコントリビュートする。 Influentialは、コンテキスト認識の画像とキャプション探索をサポートする総合的なプロモーションポストデザインシステムを実装している。
論文参考訳（メタデータ） (2024-07-20T16:27:49Z)
MetaDesigner: Advancing Artistic Typography through AI-Driven, User-Centric, and Multilingual WordArt Synthesis [65.78359025027457]
MetaDesignerは、Large Language Models(LLM)の強みを活用して、ユーザエンゲージメントを中心としたデザインパラダイムを推進することによって、芸術的なタイポグラフィに革命をもたらす。総合的なフィードバックメカニズムは、マルチモーダルモデルとユーザ評価からの洞察を活用して、設計プロセスを反復的に洗練し、拡張する。実証的な検証は、MetaDesignerが様々なWordArtアプリケーションに効果的に機能し、審美的に魅力的でコンテキストに敏感な結果を生み出す能力を強調している。
論文参考訳（メタデータ） (2024-06-28T11:58:26Z)
Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。 IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文参考訳（メタデータ） (2024-05-31T18:22:29Z)
DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文参考訳（メタデータ） (2024-03-08T02:24:27Z)
PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文参考訳（メタデータ） (2024-01-11T18:35:33Z)
Teaching Text-to-Image Models to Communicate in Dialog [44.76942024105259]
本稿では,イノベーティブな対話・画像生成タスクに焦点をあてる。この問題に対処するために、我々は最先端のテキスト・画像生成モデルのトップに調整された微調整アプローチを設計する。我々のアプローチは、3つの最先端の事前訓練されたテキスト-画像生成バックボーンで一貫した、そして顕著な改善をもたらす。
論文参考訳（メタデータ） (2023-09-27T09:33:16Z)
SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文参考訳（メタデータ） (2023-08-27T19:44:44Z)
IR-GAN: Image Manipulation with Linguistic Instruction by Increment Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文参考訳（メタデータ） (2022-04-02T07:48:39Z)
Exploring Latent Dimensions of Crowd-sourced Creativity [0.02294014185517203]
私たちは、AIベースの最大のクリエイティビティプラットフォームであるArtbreederの開発を行っています。このプラットフォーム上で生成された画像の潜在次元を探索し、画像を操作するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-13T19:24:52Z)
Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文参考訳（メタデータ） (2021-04-29T17:59:42Z)
Words as Art Materials: Generating Paintings with Sequential GANs [8.249180979158815]
大規模な分散データセット上での芸術画像の生成について検討する。このデータセットには、形状、色、内容など、バリエーションのあるイメージが含まれている。本稿では,逐次生成適応型ネットワークモデルを提案する。
論文参考訳（メタデータ） (2020-07-08T19:17:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。