論文の概要: 3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows
- arxiv url: http://arxiv.org/abs/2210.11603v2
- Date: Mon, 31 Jul 2023 18:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 18:16:42.525394
- Title: 3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows
- Title(参考訳): 3DALL-E:3Dデザインワークフローにおけるテキストと画像のAIの統合
- Authors: Vivian Liu, Jo Vermeulen, George Fitzmaurice, Justin Matejka
- Abstract要約: DALL-E, GPT-3, CLIPをCADソフトウェアに組み込んだ3DALL-Eは, 3Dデザインのための2Dイメージインスピレーションを生成するプラグインである。
13人のデザイナによる研究では、テキスト・ツー・イメージのAIを使用して参照画像を作成し、設計の修正を防止し、設計上の考慮を喚起できることが判明した。
- 参考スコア(独自算出の注目度): 8.591083124761926
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-image AI are capable of generating novel images for inspiration, but
their applications for 3D design workflows and how designers can build 3D
models using AI-provided inspiration have not yet been explored. To investigate
this, we integrated DALL-E, GPT-3, and CLIP within a CAD software in 3DALL-E, a
plugin that generates 2D image inspiration for 3D design. 3DALL-E allows users
to construct text and image prompts based on what they are modeling. In a study
with 13 designers, we found that designers saw great potential in 3DALL-E
within their workflows and could use text-to-image AI to produce reference
images, prevent design fixation, and inspire design considerations. We
elaborate on prompting patterns observed across 3D modeling tasks and provide
measures of prompt complexity observed across participants. From our findings,
we discuss how 3DALL-E can merge with existing generative design workflows and
propose prompt bibliographies as a form of human-AI design history.
- Abstract(参考訳): テキストから画像へのAIは、インスピレーションのための新しいイメージを生成することができるが、3Dデザインワークフローや、AIが提供するインスピレーションを使ってデザイナが3Dモデルを構築する方法はまだ検討されていない。
そこで我々は,DALL-E,GPT-3,CLIPをCADソフトウェアに組み込んだ3DALL-Eを開発した。
3DALL-Eでは、ユーザがモデリングしたものに基づいて、テキストと画像のプロンプトを構築することができる。
13人のデザイナーによる研究によると、デザイナーはワークフローの中で3DALL-Eに大きな可能性を見出し、テキストから画像までAIを使って参照画像を作成し、デザインの修正を防ぎ、デザインの考慮を刺激できることがわかった。
3次元モデリングタスクで観察されるパターンのプロンプトについて詳述し、参加者間で観察される素早い複雑さの尺度を提供する。
そこで本研究では,3DALL-Eが既存の生成設計ワークフローとどのように統合できるかを考察し,人間-AI設計史の一形態として,書誌学のプロンプトを提案する。
関連論文リスト
- Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint [61.25279122171029]
テキストプロンプトから制御可能で構成可能な3D生成が可能なフレームワークを提案する。
提案手法は2次元レイアウトを青写真として活用し,3次元生成の精密かつ確実な制御を容易にする。
論文 参考訳(メタデータ) (2024-10-20T13:41:50Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。
CAT3Dは1分で3Dシーン全体を作成できる。
論文 参考訳(メタデータ) (2024-05-16T17:59:05Z) - BlenderAlchemy: Editing 3D Graphics with Vision-Language Models [4.852796482609347]
ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。
人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
論文 参考訳(メタデータ) (2024-04-26T19:37:13Z) - Sketch-to-Architecture: Generative AI-aided Architectural Design [20.42779592734634]
簡単なスケッチから概念的なフロアプランと3Dモデルを生成するために,AIモデルを利用する新しいワークフローを提案する。
我々の研究は、アーキテクチャ設計プロセスにおける生成AIの可能性を示し、コンピュータ支援アーキテクチャ設計の新しい方向性を指し示している。
論文 参考訳(メタデータ) (2024-03-29T14:04:45Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。