論文の概要: From Concept to Manufacturing: Evaluating Vision-Language Models for
Engineering Design
- arxiv url: http://arxiv.org/abs/2311.12668v1
- Date: Tue, 21 Nov 2023 15:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:02:49.647405
- Title: From Concept to Manufacturing: Evaluating Vision-Language Models for
Engineering Design
- Title(参考訳): 概念から製造へ:工学設計のための視覚言語モデルの評価
- Authors: Cyril Picard, Kristen M. Edwards, Anna C. Doris, Brandon Man, Giorgio
Giannone, Md Ferdous Alam, and Faez Ahmed
- Abstract要約: 本稿では,幅広い工学設計課題を対象とした視覚言語モデルGPT-4Vの包括的評価について述べる。
本研究では,GPT-4Vのスケッチ類似性解析,Pugh Chartsを用いた概念選択,材料選択,図面解析,CAD生成,トポロジ最適化,付加的・減算的製造のための設計,空間的推論問題,教科書問題などの設計課題における能力を評価する。
- 参考スコア(独自算出の注目度): 5.268919870502001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Engineering Design is undergoing a transformative shift with the advent of
AI, marking a new era in how we approach product, system, and service planning.
Large language models have demonstrated impressive capabilities in enabling
this shift. Yet, with text as their only input modality, they cannot leverage
the large body of visual artifacts that engineers have used for centuries and
are accustomed to. This gap is addressed with the release of multimodal vision
language models, such as GPT-4V, enabling AI to impact many more types of
tasks. In light of these advancements, this paper presents a comprehensive
evaluation of GPT-4V, a vision language model, across a wide spectrum of
engineering design tasks, categorized into four main areas: Conceptual Design,
System-Level and Detailed Design, Manufacturing and Inspection, and Engineering
Education Tasks. Our study assesses GPT-4V's capabilities in design tasks such
as sketch similarity analysis, concept selection using Pugh Charts, material
selection, engineering drawing analysis, CAD generation, topology optimization,
design for additive and subtractive manufacturing, spatial reasoning
challenges, and textbook problems. Through this structured evaluation, we not
only explore GPT-4V's proficiency in handling complex design and manufacturing
challenges but also identify its limitations in complex engineering design
applications. Our research establishes a foundation for future assessments of
vision language models, emphasizing their immense potential for innovating and
enhancing the engineering design and manufacturing landscape. It also
contributes a set of benchmark testing datasets, with more than 1000 queries,
for ongoing advancements and applications in this field.
- Abstract(参考訳): エンジニアリングデザインは、AIの出現とともに変革的な変化を経験しており、プロダクト、システム、サービス計画へのアプローチの新しい時代を象徴している。
大規模な言語モデルは、このシフトを可能にする素晴らしい能力を示している。
しかし、テキストを唯一の入力モダリティとすれば、何世紀にもわたってエンジニアが慣れ親しんだ視覚的なアーティファクトを活用できない。
このギャップは、GPT-4Vのようなマルチモーダル視覚言語モデルのリリースによって解決される。
本稿では,これらの進歩を踏まえ,概念設計,システムレベルおよび詳細な設計,製造・検査,工学教育の4つの分野に分類した,幅広い工学設計タスクを対象としたビジョン言語モデルgpt-4vの包括的評価を行った。
本研究では,GPT-4Vのスケッチ類似性解析,Pugh Chartsを用いた概念選択,材料選択,図面解析,CAD生成,トポロジ最適化,付加的・減算的製造のための設計,空間推論問題,教科書問題などの設計課題における能力を評価する。
この構造的評価を通じて,GPT-4Vの複雑な設計と製造の課題に対処する能力だけでなく,複雑なエンジニアリング設計アプリケーションにおける限界も明らかにする。
本研究は、ビジョン言語モデルの将来評価の基礎を確立し、エンジニアリングデザインと製造業の展望を革新し、向上させる大きな可能性を強調している。
また、この分野で進行中の進歩とアプリケーションのために、1000以上のクエリを持つベンチマークテストデータセットのセットも提供しています。
関連論文リスト
- Design2Code: How Far Are We From Automating Front-End Engineering? [83.06100360864502]
これを Design2Code タスクとして形式化し,包括的なベンチマークを行う。
具体的には、テストケースとして、484の多様な現実世界のWebページのベンチマークを手動でキュレートする。
我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。
人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z) - Geometric Deep Learning for Computer-Aided Design: A Survey [85.79012726689511]
本調査では,コンピュータ支援設計における学習手法の概要について概観する。
類似性解析と検索、2Dおよび3DCADモデル合成、点雲からのCAD生成を含む。
ベンチマークデータセットとその特性の完全なリストと、この領域の研究を推進しているオープンソースコードを提供する。
論文 参考訳(メタデータ) (2024-02-27T17:11:35Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - How Can Large Language Models Help Humans in Design and Manufacturing? [28.28959612862582]
GPT-4を含む大規模言語モデル(LLM)は、生成設計にエキサイティングな新しい機会を提供する。
テキストベースのプロンプトを設計仕様に変換すること、設計を設計指示に変換すること、設計空間と設計のバリエーションを作り出すこと、設計の性能を計算し、性能を規定した設計を探すこと、などである。
これらの制限を明らかにすることで、これらのモデルの継続的な改善と進歩を触媒することを目指しています。
論文 参考訳(メタデータ) (2023-07-25T17:30:38Z) - Review of Large Vision Models and Visual Prompt Engineering [50.63394642549947]
レビューは、大きな視覚モデルと視覚プロンプトエンジニアリングのためにコンピュータビジョン領域で使用される手法を要約することを目的としている。
本稿では、視覚領域における影響力のある大規模モデルと、これらのモデルに使用される一連のプロンプトエンジニアリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-03T08:48:49Z) - Scaling Evidence-based Instructional Design Expertise through Large
Language Models [0.0]
本稿では,大規模言語モデル(LLM),特にGPT-4を教育設計の分野で活用することを検討する。
本研究は,エビデンスに基づく教育設計の専門知識のスケールアップに着目し,理論教育学と実践実践のギャップを埋めることを目的としている。
我々は,AIによるコンテンツ生成のメリットと限界について論じ,教育資料の品質確保に人的監督が必要であることを強調した。
論文 参考訳(メタデータ) (2023-05-31T17:54:07Z) - Challenges and Practices of Deep Learning Model Reengineering: A Case
Study on Computer Vision [3.510650664260664]
多くのエンジニアリング組織が、研究コミュニティからディープニューラルネットワークを再実装し、拡張しています。
ディープラーニングモデルの再設計は、ドキュメント不足の参照モデル、要件の変更、実装とテストのコストといった理由から難しい。
本研究は「プロセス」の観点からのリエンジニアリング活動に重点を置いており、リエンジニアリングプロセスに特に携わるエンジニアに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-13T21:23:43Z) - Design Space Exploration and Explanation via Conditional Variational
Autoencoders in Meta-model-based Conceptual Design of Pedestrian Bridges [52.77024349608834]
本稿では,条件付き変分オートエンコーダ(CVAE)による人間設計者向上のための性能駆動型設計探索フレームワークを提案する。
CVAEはスイスの歩行者橋の合成例18万件で訓練されている。
論文 参考訳(メタデータ) (2022-11-29T17:28:31Z) - Deep Generative Models in Engineering Design: A Review [1.933681537640272]
本稿では,工学設計におけるDeep Generative Learningモデルのレビューと分析を行う。
最近のDGMは、構造最適化、材料設計、形状合成といった設計応用において有望な結果を示している。
論文 参考訳(メタデータ) (2021-10-21T02:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。