Fugu-MT 論文翻訳(概要): From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design

論文の概要: From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design

arxiv url: http://arxiv.org/abs/2311.12668v1
Date: Tue, 21 Nov 2023 15:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 00:02:49.647405
Title: From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design
Title（参考訳）: 概念から製造へ:工学設計のための視覚言語モデルの評価
Authors: Cyril Picard, Kristen M. Edwards, Anna C. Doris, Brandon Man, Giorgio Giannone, Md Ferdous Alam, and Faez Ahmed
Abstract要約: 本稿では,幅広い工学設計課題を対象とした視覚言語モデルGPT-4Vの包括的評価について述べる。本研究では,GPT-4Vのスケッチ類似性解析,Pugh Chartsを用いた概念選択,材料選択,図面解析,CAD生成,トポロジ最適化,付加的・減算的製造のための設計,空間的推論問題,教科書問題などの設計課題における能力を評価する。
参考スコア（独自算出の注目度）: 5.268919870502001
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Engineering Design is undergoing a transformative shift with the advent of AI, marking a new era in how we approach product, system, and service planning. Large language models have demonstrated impressive capabilities in enabling this shift. Yet, with text as their only input modality, they cannot leverage the large body of visual artifacts that engineers have used for centuries and are accustomed to. This gap is addressed with the release of multimodal vision language models, such as GPT-4V, enabling AI to impact many more types of tasks. In light of these advancements, this paper presents a comprehensive evaluation of GPT-4V, a vision language model, across a wide spectrum of engineering design tasks, categorized into four main areas: Conceptual Design, System-Level and Detailed Design, Manufacturing and Inspection, and Engineering Education Tasks. Our study assesses GPT-4V's capabilities in design tasks such as sketch similarity analysis, concept selection using Pugh Charts, material selection, engineering drawing analysis, CAD generation, topology optimization, design for additive and subtractive manufacturing, spatial reasoning challenges, and textbook problems. Through this structured evaluation, we not only explore GPT-4V's proficiency in handling complex design and manufacturing challenges but also identify its limitations in complex engineering design applications. Our research establishes a foundation for future assessments of vision language models, emphasizing their immense potential for innovating and enhancing the engineering design and manufacturing landscape. It also contributes a set of benchmark testing datasets, with more than 1000 queries, for ongoing advancements and applications in this field.
Abstract（参考訳）: エンジニアリングデザインは、AIの出現とともに変革的な変化を経験しており、プロダクト、システム、サービス計画へのアプローチの新しい時代を象徴している。大規模な言語モデルは、このシフトを可能にする素晴らしい能力を示している。しかし、テキストを唯一の入力モダリティとすれば、何世紀にもわたってエンジニアが慣れ親しんだ視覚的なアーティファクトを活用できない。このギャップは、GPT-4Vのようなマルチモーダル視覚言語モデルのリリースによって解決される。本稿では,これらの進歩を踏まえ,概念設計,システムレベルおよび詳細な設計,製造・検査,工学教育の4つの分野に分類した,幅広い工学設計タスクを対象としたビジョン言語モデルgpt-4vの包括的評価を行った。本研究では,GPT-4Vのスケッチ類似性解析,Pugh Chartsを用いた概念選択,材料選択,図面解析,CAD生成,トポロジ最適化,付加的・減算的製造のための設計,空間推論問題,教科書問題などの設計課題における能力を評価する。この構造的評価を通じて,GPT-4Vの複雑な設計と製造の課題に対処する能力だけでなく,複雑なエンジニアリング設計アプリケーションにおける限界も明らかにする。本研究は、ビジョン言語モデルの将来評価の基礎を確立し、エンジニアリングデザインと製造業の展望を革新し、向上させる大きな可能性を強調している。また、この分野で進行中の進歩とアプリケーションのために、1000以上のクエリを持つベンチマークテストデータセットのセットも提供しています。

関連論文リスト

CANVAS: A Benchmark for Vision-Language Models on Tool-Based User Interface Design [20.69770605071827]
本稿では,ツールベースのユーザインタフェース設計におけるVLMのベンチマークであるCANVASを紹介する。私たちのベンチマークには,3.3KモバイルUI設計から採取した地平線参照と組み合わせた598のツールベースのデザインタスクが含まれています。結果は、主要なモデルがより戦略的ツール呼び出しを示し、設計品質が向上することを示唆している。
論文参考訳（メタデータ） (2025-11-25T16:13:20Z)
Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文参考訳（メタデータ） (2025-05-12T14:05:23Z)
From Idea to CAD: A Language Model-Driven Multi-Agent System for Collaborative Design [0.06749750044497731]
本稿では,このチーム構造を視覚言語モデル(VLM)に基づくマルチエージェントシステムで再現する手法を提案する。モデルはスケッチやテキスト記述から自動的に生成される。得られたモデルは、ユーザとの反復的検証ループで協調的に洗練することができる。
論文参考訳（メタデータ） (2025-03-06T13:21:27Z)
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。 VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文参考訳（メタデータ） (2024-11-04T18:01:34Z)
What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。 Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文参考訳（メタデータ） (2024-05-03T17:00:00Z)
DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation [3.2169312784098705]
本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。 DesignQAは、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータ、テキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。
論文参考訳（メタデータ） (2024-04-11T16:59:54Z)
Geometric Deep Learning for Computer-Aided Design: A Survey [85.79012726689511]
本調査では,コンピュータ支援設計における学習手法の概要について概観する。類似性解析と検索、2Dおよび3DCADモデル合成、点雲からのCAD生成を含む。ベンチマークデータセットとその特性の完全なリストと、この領域の研究を推進しているオープンソースコードを提供する。
論文参考訳（メタデータ） (2024-02-27T17:11:35Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文参考訳（メタデータ） (2023-12-27T14:54:37Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
How Can Large Language Models Help Humans in Design and Manufacturing? [28.28959612862582]
GPT-4を含む大規模言語モデル(LLM)は、生成設計にエキサイティングな新しい機会を提供する。テキストベースのプロンプトを設計仕様に変換すること、設計を設計指示に変換すること、設計空間と設計のバリエーションを作り出すこと、設計の性能を計算し、性能を規定した設計を探すこと、などである。これらの制限を明らかにすることで、これらのモデルの継続的な改善と進歩を触媒することを目指しています。
論文参考訳（メタデータ） (2023-07-25T17:30:38Z)
Challenges and Practices of Deep Learning Model Reengineering: A Case Study on Computer Vision [3.510650664260664]
多くのエンジニアリング組織が、研究コミュニティからディープニューラルネットワークを再実装し、拡張しています。ディープラーニングモデルの再設計は、ドキュメント不足の参照モデル、要件の変更、実装とテストのコストといった理由から難しい。本研究は「プロセス」の観点からのリエンジニアリング活動に重点を置いており、リエンジニアリングプロセスに特に携わるエンジニアに焦点を当てている。
論文参考訳（メタデータ） (2023-03-13T21:23:43Z)
Design Space Exploration and Explanation via Conditional Variational Autoencoders in Meta-model-based Conceptual Design of Pedestrian Bridges [52.77024349608834]
本稿では,条件付き変分オートエンコーダ(CVAE)による人間設計者向上のための性能駆動型設計探索フレームワークを提案する。 CVAEはスイスの歩行者橋の合成例18万件で訓練されている。
論文参考訳（メタデータ） (2022-11-29T17:28:31Z)
Engineering AI Systems: A Research Agenda [9.84673609667263]
私たちは、企業が機械学習を採用する際に経験する典型的な進化パターンの概念化を提供します。論文の主なコントリビューションは、MLソリューションを取り巻く重要なエンジニアリング課題の概要を提供する、AIエンジニアリングに関する研究アジェンダである。
論文参考訳（メタデータ） (2020-01-16T20:29:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。