論文の概要: Trash to Treasure: Using text-to-image models to inform the design of
physical artefacts
- arxiv url: http://arxiv.org/abs/2302.00561v1
- Date: Wed, 1 Feb 2023 16:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 17:07:28.143284
- Title: Trash to Treasure: Using text-to-image models to inform the design of
physical artefacts
- Title(参考訳): 宝物へのトラッシュ:物のデザインにテキスト・ツー・イメージ・モデルを使う
- Authors: Amy Smith, Hope Schroeder, Ziv Epstein, Michael Cook, Simon Colton,
Andrew Lippman
- Abstract要約: 我々は,創造プロセスにおける上流タスクを支援するために,テキスト・ツー・イメージ・モデルをどのように利用できるかを検討するために,パイロット・スタディを実施している。
30人の参加者が彫刻素材を選択し、安定拡散画像生成装置を用いて3つの画像を生成した。
参加者の大多数は生成した画像が彫刻に通知したと報告し、28/30はテキスト・ツー・イメージ・モデルによる創造的な作業への関心を報告した。
- 参考スコア(独自算出の注目度): 2.6093180689514353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generative models have recently exploded in popularity and
accessibility. Yet so far, use of these models in creative tasks that bridge
the 2D digital world and the creation of physical artefacts has been
understudied. We conduct a pilot study to investigate if and how text-to-image
models can be used to assist in upstream tasks within the creative process,
such as ideation and visualization, prior to a sculpture-making activity.
Thirty participants selected sculpture-making materials and generated three
images using the Stable Diffusion text-to-image generator, each with text
prompts of their choice, with the aim of informing and then creating a physical
sculpture. The majority of participants (23/30) reported that the generated
images informed their sculptures, and 28/30 reported interest in using
text-to-image models to help them in a creative task in the future. We identify
several prompt engineering strategies and find that a participant's prompting
strategy relates to their stage in the creative process. We discuss how our
findings can inform support for users at different stages of the design process
and for using text-to-image models for physical artefact design.
- Abstract(参考訳): テキストから画像への生成モデルは、最近人気とアクセシビリティで爆発的になった。
これまでのところ、2dデジタル世界と物理的なアーティファクトの創造を橋渡しする創造的なタスクにおけるこれらのモデルの使用は、未検討のままである。
本研究は,彫刻活動に先立って,創造的プロセスにおける上流タスク,例えば想像や可視化などを支援するために,テキスト・ツー・イメージ・モデルをどのように活用できるかを,試行的に検討する。
30人の参加者が彫刻素材を選択し、安定拡散テキスト画像生成装置を用いて3つの画像を生成し、それぞれが選択したテキストのプロンプトを入力し、物理的彫刻を作成する。
参加者の大多数(23/30)は、生成した画像が彫刻に通知したと報告し、28/30はテキスト・ツー・イメージ・モデルによる創造的な作業への関心を報告した。
我々は、いくつかの迅速なエンジニアリング戦略を特定し、参加者のプロンプト戦略が創造プロセスにおける彼らのステージに関係していることを見出す。
本稿では,デザインプロセスの異なる段階におけるユーザ支援と,物理的アーティファクト設計にテキストから画像へのモデルの利用について考察する。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Artworks Reimagined: Exploring Human-AI Co-Creation through Body Prompting [3.7907687118593323]
本稿では、生成人工知能を用いた画像生成のための入力として、ボディプロンプトについて考察する。
このコンセプトをインタラクティブなアートインスタレーションであるArtworks Reimaginedに実装し、ボディプロンプトを通じてアートを変換します。
我々は、生成AIとの3つの異なる相互作用パターンを識別し、参加者のボディプロンプトとAI共創体験に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-08-10T08:05:59Z) - ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-06-04T23:39:08Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - A Taxonomy of Prompt Modifiers for Text-To-Image Generation [6.903929927172919]
本稿では,3ヶ月のエスノグラフィー研究に基づいて,オンラインコミュニティの実践者が使用する6種類のプロンプト修飾剤を同定する。
プロンプト修飾子の新たな分類法は、テキスト・ツー・イメージ・ジェネレーションの実践を研究するための概念的な出発点となる。
本稿では,人間-コンピュータインタラクション分野における新しい創造的実践の機会について論じる。
論文 参考訳(メタデータ) (2022-04-20T06:15:50Z) - A Framework and Dataset for Abstract Art Generation via CalligraphyGAN [0.0]
本研究では,コンディショナル・ジェネレーティブ・アドバイザリ・ネットワークと文脈ニューラル言語モデルに基づく創造的枠組みを提示し,抽象アートワークを生成する。
私たちの作品は中国書道に触発され、字そのものが美的絵画である独特の視覚芸術形式である。
論文 参考訳(メタデータ) (2020-12-02T16:24:20Z) - Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。
既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文 参考訳(メタデータ) (2020-07-14T17:54:26Z) - Words as Art Materials: Generating Paintings with Sequential GANs [8.249180979158815]
大規模な分散データセット上での芸術画像の生成について検討する。
このデータセットには、形状、色、内容など、バリエーションのあるイメージが含まれている。
本稿では,逐次生成適応型ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-07-08T19:17:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。