論文の概要: From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design
- arxiv url: http://arxiv.org/abs/2311.12668v2
- Date: Thu, 8 Aug 2024 02:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:47:49.014521
- Title: From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design
- Title(参考訳): 概念から製造へ:工学設計のためのビジョンランゲージモデルの評価
- Authors: Cyril Picard, Kristen M. Edwards, Anna C. Doris, Brandon Man, Giorgio Giannone, Md Ferdous Alam, Faez Ahmed,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を工学設計タスクの範囲で総合的に評価する。
本稿では, スケッチ類似性解析, CAD生成, トポロジ最適化, 製造性評価, 工学教科書問題などの設計課題における2つのVLM, GPT-4V, LLaVA 1.6 34Bの性能評価を行う。
- 参考スコア(独自算出の注目度): 5.268919870502001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Engineering design is undergoing a transformative shift with the advent of AI, marking a new era in how we approach product, system, and service planning. Large language models have demonstrated impressive capabilities in enabling this shift. Yet, with text as their only input modality, they cannot leverage the large body of visual artifacts that engineers have used for centuries and are accustomed to. This gap is addressed with the release of multimodal vision-language models (VLMs), such as GPT-4V, enabling AI to impact many more types of tasks. Our work presents a comprehensive evaluation of VLMs across a spectrum of engineering design tasks, categorized into four main areas: Conceptual Design, System-Level and Detailed Design, Manufacturing and Inspection, and Engineering Education Tasks. Specifically in this paper, we assess the capabilities of two VLMs, GPT-4V and LLaVA 1.6 34B, in design tasks such as sketch similarity analysis, CAD generation, topology optimization, manufacturability assessment, and engineering textbook problems. Through this structured evaluation, we not only explore VLMs' proficiency in handling complex design challenges but also identify their limitations in complex engineering design applications. Our research establishes a foundation for future assessments of vision language models. It also contributes a set of benchmark testing datasets, with more than 1000 queries, for ongoing advancements and applications in this field.
- Abstract(参考訳): エンジニアリング設計は、AIの出現とともに変革的な変化を経験しており、プロダクト、システム、サービス計画へのアプローチの新しい時代を象徴している。
大規模な言語モデルは、このシフトを可能にする素晴らしい能力を示している。
しかし、テキストを唯一の入力モダリティとすれば、何世紀にもわたってエンジニアが慣れ親しんだ視覚的なアーティファクトを活用できない。
このギャップは、GPT-4Vのようなマルチモーダル視覚言語モデル(VLM)のリリースによって解決される。
本研究は, 概念設計, システムレベル, 詳細設計, 製造・検査, 工学教育タスクの4つの分野に分類した, 工学設計タスクにおけるVLMの包括的評価を行う。
本稿では, スケッチ類似性解析, CAD生成, トポロジ最適化, 製造性評価, 工学教科書問題などの設計課題における2つのVLM, GPT-4V, LLaVA 1.6 34Bの性能評価を行う。
この構造的評価を通じて、複雑な設計課題に対処する上でのVLMの熟練度だけでなく、複雑なエンジニアリング設計アプリケーションにおけるそれらの限界についても検討する。
本研究は,視覚言語モデルの今後の評価のための基盤を確立する。
また、この分野で進行中の進歩とアプリケーションのために、1000以上のクエリを持つベンチマークテストデータセットのセットも提供しています。
関連論文リスト
- Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation [3.2169312784098705]
本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。
DesignQAは、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータ、テキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。
論文 参考訳(メタデータ) (2024-04-11T16:59:54Z) - Geometric Deep Learning for Computer-Aided Design: A Survey [85.79012726689511]
本調査では,コンピュータ支援設計における学習手法の概要について概観する。
類似性解析と検索、2Dおよび3DCADモデル合成、点雲からのCAD生成を含む。
ベンチマークデータセットとその特性の完全なリストと、この領域の研究を推進しているオープンソースコードを提供する。
論文 参考訳(メタデータ) (2024-02-27T17:11:35Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - How Can Large Language Models Help Humans in Design and Manufacturing? [28.28959612862582]
GPT-4を含む大規模言語モデル(LLM)は、生成設計にエキサイティングな新しい機会を提供する。
テキストベースのプロンプトを設計仕様に変換すること、設計を設計指示に変換すること、設計空間と設計のバリエーションを作り出すこと、設計の性能を計算し、性能を規定した設計を探すこと、などである。
これらの制限を明らかにすることで、これらのモデルの継続的な改善と進歩を触媒することを目指しています。
論文 参考訳(メタデータ) (2023-07-25T17:30:38Z) - Challenges and Practices of Deep Learning Model Reengineering: A Case
Study on Computer Vision [3.510650664260664]
多くのエンジニアリング組織が、研究コミュニティからディープニューラルネットワークを再実装し、拡張しています。
ディープラーニングモデルの再設計は、ドキュメント不足の参照モデル、要件の変更、実装とテストのコストといった理由から難しい。
本研究は「プロセス」の観点からのリエンジニアリング活動に重点を置いており、リエンジニアリングプロセスに特に携わるエンジニアに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-13T21:23:43Z) - Design Space Exploration and Explanation via Conditional Variational
Autoencoders in Meta-model-based Conceptual Design of Pedestrian Bridges [52.77024349608834]
本稿では,条件付き変分オートエンコーダ(CVAE)による人間設計者向上のための性能駆動型設計探索フレームワークを提案する。
CVAEはスイスの歩行者橋の合成例18万件で訓練されている。
論文 参考訳(メタデータ) (2022-11-29T17:28:31Z) - Engineering AI Systems: A Research Agenda [9.84673609667263]
私たちは、企業が機械学習を採用する際に経験する典型的な進化パターンの概念化を提供します。
論文の主なコントリビューションは、MLソリューションを取り巻く重要なエンジニアリング課題の概要を提供する、AIエンジニアリングに関する研究アジェンダである。
論文 参考訳(メタデータ) (2020-01-16T20:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。