論文の概要: From Concept to Manufacturing: Evaluating Vision-Language Models for
Engineering Design
- arxiv url: http://arxiv.org/abs/2311.12668v1
- Date: Tue, 21 Nov 2023 15:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:02:49.647405
- Title: From Concept to Manufacturing: Evaluating Vision-Language Models for
Engineering Design
- Title(参考訳): 概念から製造へ:工学設計のための視覚言語モデルの評価
- Authors: Cyril Picard, Kristen M. Edwards, Anna C. Doris, Brandon Man, Giorgio
Giannone, Md Ferdous Alam, and Faez Ahmed
- Abstract要約: 本稿では,幅広い工学設計課題を対象とした視覚言語モデルGPT-4Vの包括的評価について述べる。
本研究では,GPT-4Vのスケッチ類似性解析,Pugh Chartsを用いた概念選択,材料選択,図面解析,CAD生成,トポロジ最適化,付加的・減算的製造のための設計,空間的推論問題,教科書問題などの設計課題における能力を評価する。
- 参考スコア(独自算出の注目度): 5.268919870502001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Engineering Design is undergoing a transformative shift with the advent of
AI, marking a new era in how we approach product, system, and service planning.
Large language models have demonstrated impressive capabilities in enabling
this shift. Yet, with text as their only input modality, they cannot leverage
the large body of visual artifacts that engineers have used for centuries and
are accustomed to. This gap is addressed with the release of multimodal vision
language models, such as GPT-4V, enabling AI to impact many more types of
tasks. In light of these advancements, this paper presents a comprehensive
evaluation of GPT-4V, a vision language model, across a wide spectrum of
engineering design tasks, categorized into four main areas: Conceptual Design,
System-Level and Detailed Design, Manufacturing and Inspection, and Engineering
Education Tasks. Our study assesses GPT-4V's capabilities in design tasks such
as sketch similarity analysis, concept selection using Pugh Charts, material
selection, engineering drawing analysis, CAD generation, topology optimization,
design for additive and subtractive manufacturing, spatial reasoning
challenges, and textbook problems. Through this structured evaluation, we not
only explore GPT-4V's proficiency in handling complex design and manufacturing
challenges but also identify its limitations in complex engineering design
applications. Our research establishes a foundation for future assessments of
vision language models, emphasizing their immense potential for innovating and
enhancing the engineering design and manufacturing landscape. It also
contributes a set of benchmark testing datasets, with more than 1000 queries,
for ongoing advancements and applications in this field.
- Abstract(参考訳): エンジニアリングデザインは、AIの出現とともに変革的な変化を経験しており、プロダクト、システム、サービス計画へのアプローチの新しい時代を象徴している。
大規模な言語モデルは、このシフトを可能にする素晴らしい能力を示している。
しかし、テキストを唯一の入力モダリティとすれば、何世紀にもわたってエンジニアが慣れ親しんだ視覚的なアーティファクトを活用できない。
このギャップは、GPT-4Vのようなマルチモーダル視覚言語モデルのリリースによって解決される。
本稿では,これらの進歩を踏まえ,概念設計,システムレベルおよび詳細な設計,製造・検査,工学教育の4つの分野に分類した,幅広い工学設計タスクを対象としたビジョン言語モデルgpt-4vの包括的評価を行った。
本研究では,GPT-4Vのスケッチ類似性解析,Pugh Chartsを用いた概念選択,材料選択,図面解析,CAD生成,トポロジ最適化,付加的・減算的製造のための設計,空間推論問題,教科書問題などの設計課題における能力を評価する。
この構造的評価を通じて,GPT-4Vの複雑な設計と製造の課題に対処する能力だけでなく,複雑なエンジニアリング設計アプリケーションにおける限界も明らかにする。
本研究は、ビジョン言語モデルの将来評価の基礎を確立し、エンジニアリングデザインと製造業の展望を革新し、向上させる大きな可能性を強調している。
また、この分野で進行中の進歩とアプリケーションのために、1000以上のクエリを持つベンチマークテストデータセットのセットも提供しています。
関連論文リスト
- Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation [3.2169312784098705]
本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。
DesignQAは、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータ、テキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。
論文 参考訳(メタデータ) (2024-04-11T16:59:54Z) - Geometric Deep Learning for Computer-Aided Design: A Survey [85.79012726689511]
本調査では,コンピュータ支援設計における学習手法の概要について概観する。
類似性解析と検索、2Dおよび3DCADモデル合成、点雲からのCAD生成を含む。
ベンチマークデータセットとその特性の完全なリストと、この領域の研究を推進しているオープンソースコードを提供する。
論文 参考訳(メタデータ) (2024-02-27T17:11:35Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - How Can Large Language Models Help Humans in Design and Manufacturing? [28.28959612862582]
GPT-4を含む大規模言語モデル(LLM)は、生成設計にエキサイティングな新しい機会を提供する。
テキストベースのプロンプトを設計仕様に変換すること、設計を設計指示に変換すること、設計空間と設計のバリエーションを作り出すこと、設計の性能を計算し、性能を規定した設計を探すこと、などである。
これらの制限を明らかにすることで、これらのモデルの継続的な改善と進歩を触媒することを目指しています。
論文 参考訳(メタデータ) (2023-07-25T17:30:38Z) - Challenges and Practices of Deep Learning Model Reengineering: A Case
Study on Computer Vision [3.510650664260664]
多くのエンジニアリング組織が、研究コミュニティからディープニューラルネットワークを再実装し、拡張しています。
ディープラーニングモデルの再設計は、ドキュメント不足の参照モデル、要件の変更、実装とテストのコストといった理由から難しい。
本研究は「プロセス」の観点からのリエンジニアリング活動に重点を置いており、リエンジニアリングプロセスに特に携わるエンジニアに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-13T21:23:43Z) - Design Space Exploration and Explanation via Conditional Variational
Autoencoders in Meta-model-based Conceptual Design of Pedestrian Bridges [52.77024349608834]
本稿では,条件付き変分オートエンコーダ(CVAE)による人間設計者向上のための性能駆動型設計探索フレームワークを提案する。
CVAEはスイスの歩行者橋の合成例18万件で訓練されている。
論文 参考訳(メタデータ) (2022-11-29T17:28:31Z) - Engineering AI Systems: A Research Agenda [9.84673609667263]
私たちは、企業が機械学習を採用する際に経験する典型的な進化パターンの概念化を提供します。
論文の主なコントリビューションは、MLソリューションを取り巻く重要なエンジニアリング課題の概要を提供する、AIエンジニアリングに関する研究アジェンダである。
論文 参考訳(メタデータ) (2020-01-16T20:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。