Fugu-MT 論文翻訳(概要): 3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows

論文の概要: 3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows

arxiv url: http://arxiv.org/abs/2210.11603v1
Date: Thu, 20 Oct 2022 21:28:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 14:16:21.841148
Title: 3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows
Title（参考訳）: 3DALL-E:3Dデザインワークフローにおけるテキストと画像のAIの統合
Authors: Vivian Liu, Jo Vermeulen, George Fitzmaurice, Justin Matejka
Abstract要約: 3DALL-Eは、ユーザーがモデリングしたものに基づいてテキストと画像のプロンプトを構築することができるプラグインである。 13人のデザイナーによる研究で、デザイナーは3DALL-Eを自身の伝記に取り入れ、テキストから画像までのAIを参考画像、レンダリング、素材、デザインの考慮に利用する大きな可能性を見出した。我々は3DALL-Eが既存の生成設計とどのように統合できるかについて議論し、人間-AI設計史の一形態としてプロンプトを提案する。
参考スコア（独自算出の注目度）: 8.591083124761926
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Text-to-image AI systems are capable of generating novel images for inspiration, but their applications for 3D design workflows and how designers can build 3D models using AI-provided inspiration is less understood. To investigate this, we integrated DALL-E, GPT-3, and CLIP within a CAD software in 3DALL-E, a plugin that allows users to construct text and image prompts based on what they are modelling. In a study with 13 designers, we found that designers saw great potential to incorporate 3DALL-E into their workflows and to use text-to-image AI for reference images, renders, materials, and design considerations. Additionally, we elaborate on prompting patterns and provide measures of prompt complexity observed across participants. We conclude on a discussion of how 3DALL-E can merge with existing generative design workflows and propose prompt bibliographies as a form of human-AI design history.
Abstract（参考訳）: テキストから画像までのAIシステムは、インスピレーションのために新しいイメージを生成することができるが、3Dデザインワークフローや、AIが提供するインスピレーションを使ってデザイナが3Dモデルを構築する方法はあまり理解されていない。そこで我々は3DALL-EのCADソフトウェアにDALL-E, GPT-3, CLIPを統合した。 13人のデザイナーによる研究で、デザイナーは3dall-eをワークフローに取り入れ、テキストから画像へのaiを参照画像、レンダリング、素材、デザインの考慮に利用する大きな可能性を見出しました。さらに,プロンプトパターンを詳述し,参加者間で観察される素早い複雑性の尺度を提供する。我々は,3DALL-Eが既存の生成設計ワークフローとどのように統合できるかを議論し,人間-AI設計史の一形態として書誌学の推進を提案する。

関連論文リスト

Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。 GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文参考訳（メタデータ） (2025-07-08T02:26:08Z)
Aligning Text, Images, and 3D Structure Token-by-Token [8.521599463802637]
構造化3次元シーンにおける自己回帰モデルの可能性について検討する。言語,画像,3Dシーンを整合させる統一LLMフレームワークを提案する。実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。
論文参考訳（メタデータ） (2025-06-09T17:59:37Z)
Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint [61.25279122171029]
テキストプロンプトから制御可能で構成可能な3D生成が可能なフレームワークを提案する。提案手法は2次元レイアウトを青写真として活用し,3次元生成の精密かつ確実な制御を容易にする。
論文参考訳（メタデータ） (2024-10-20T13:41:50Z)
Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。 Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文参考訳（メタデータ） (2024-07-09T13:24:42Z)
CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。 CAT3Dは1分で3Dシーン全体を作成できる。
論文参考訳（メタデータ） (2024-05-16T17:59:05Z)
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models [4.852796482609347]
ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
論文参考訳（メタデータ） (2024-04-26T19:37:13Z)
Sketch-to-Architecture: Generative AI-aided Architectural Design [20.42779592734634]
簡単なスケッチから概念的なフロアプランと3Dモデルを生成するために,AIモデルを利用する新しいワークフローを提案する。我々の研究は、アーキテクチャ設計プロセスにおける生成AIの可能性を示し、コンピュータ支援アーキテクチャ設計の新しい方向性を指し示している。
論文参考訳（メタデータ） (2024-03-29T14:04:45Z)
Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。 2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文参考訳（メタデータ） (2023-11-09T15:50:32Z)
3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。 3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文参考訳（メタデータ） (2023-10-19T17:41:48Z)
CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文参考訳（メタデータ） (2023-04-12T16:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。