論文の概要: DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation
- arxiv url: http://arxiv.org/abs/2404.07917v1
- Date: Thu, 11 Apr 2024 16:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:11:00.080780
- Title: DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation
- Title(参考訳): DesignQA: 大規模言語モデルのエンジニアリング文書化理解のためのマルチモーダルベンチマーク
- Authors: Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Hyunmin Cheong, Faez Ahmed,
- Abstract要約: 本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。
- 参考スコア(独自算出の注目度): 3.3554851717552387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research introduces DesignQA, a novel benchmark aimed at evaluating the proficiency of multimodal large language models (MLLMs) in comprehending and applying engineering requirements in technical documentation. Developed with a focus on real-world engineering challenges, DesignQA uniquely combines multimodal data-including textual design requirements, CAD images, and engineering drawings-derived from the Formula SAE student competition. Different from many existing MLLM benchmarks, DesignQA contains document-grounded visual questions where the input image and input document come from different sources. The benchmark features automatic evaluation metrics and is divided into segments-Rule Comprehension, Rule Compliance, and Rule Extraction-based on tasks that engineers perform when designing according to requirements. We evaluate state-of-the-art models like GPT4 and LLaVA against the benchmark, and our study uncovers the existing gaps in MLLMs' abilities to interpret complex engineering documentation. Key findings suggest that while MLLMs demonstrate potential in navigating technical documents, substantial limitations exist, particularly in accurately extracting and applying detailed requirements to engineering designs. This benchmark sets a foundation for future advancements in AI-supported engineering design processes. DesignQA is publicly available at: https://github.com/anniedoris/design_qa/.
- Abstract(参考訳): 本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。
DesignQAは、実世界のエンジニアリング課題に焦点をあてて開発され、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータを含むテキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。
多くの既存のMLLMベンチマークとは異なり、DesignQAには、入力画像と入力文書が異なるソースからどこから来るかという、文書による視覚的な疑問が含まれている。
このベンチマークでは、自動評価メトリクスが特徴で、要求に従って設計する際にエンジニアが実行するタスクに基づいて、セグメントルール理解、ルールコンプライアンス、ルール抽出に分けられる。
我々は、GPT4やLLaVAのような最先端のモデルをベンチマークと比較し、複雑なエンジニアリング文書を解釈するMLLMの既存のギャップを明らかにする。
鍵となる発見は、MLLMは技術文書をナビゲートする可能性を示しているが、特にエンジニアリング設計に詳細な要件を正確に抽出し適用する際には、かなりの制限が存在することを示唆している。
このベンチマークは、AIをサポートするエンジニアリング設計プロセスの今後の進歩の基盤となる。
DesignQAは、https://github.com/anniedoris/design_qa/.comで公開されている。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report [0.0]
MMFM(Multimodal Foundation Models)は、様々なコンピュータビジョンや自然言語処理タスクにおいて顕著な性能を示す。
従来のユニモーダルモデルに比べて微調整やデプロイには、計算量、時間、エンジニアリングリソースがもっと必要になります。
本稿では,凍結MMFMの出力ロジットを制限する汎用フレームワークであるMultimodal Structured Generationを提案する。
論文 参考訳(メタデータ) (2024-06-17T10:45:47Z) - Automated User Story Generation with Test Case Specification Using Large Language Model [0.0]
要件文書からユーザストーリーを自動生成するツール「GeneUS」を開発した。
アウトプットはフォーマットで提供され、ダウンストリーム統合の可能性は人気のあるプロジェクト管理ツールに開放されます。
論文 参考訳(メタデータ) (2024-04-02T01:45:57Z) - Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - LLM4EDA: Emerging Progress in Large Language Models for Electronic
Design Automation [74.7163199054881]
大規模言語モデル(LLM)は、文脈理解、論理推論、回答生成においてその能力を実証している。
本稿では,EDA分野におけるLLMの応用に関する系統的研究を行う。
論理合成,物理設計,マルチモーダル特徴抽出,回路のアライメントにLLMを適用することに焦点を当て,今後の研究の方向性を強調した。
論文 参考訳(メタデータ) (2023-12-28T15:09:14Z) - From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design [5.268919870502001]
本稿では,視覚言語モデル(VLM)を工学設計タスクの範囲で総合的に評価する。
本稿では, スケッチ類似性解析, CAD生成, トポロジ最適化, 製造性評価, 工学教科書問題などの設計課題における2つのVLM, GPT-4V, LLaVA 1.6 34Bの性能評価を行う。
論文 参考訳(メタデータ) (2023-11-21T15:20:48Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - Natural Language Processing for Systems Engineering: Automatic
Generation of Systems Modelling Language Diagrams [0.10312968200748115]
構造化されていない自然言語テキストからシステム図の自動生成を支援する手法が提案されている。
目的は、より標準化され、包括的で自動化されたスタートポイントをユーザに提供することです。
論文 参考訳(メタデータ) (2022-08-09T19:20:33Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Engineering AI Systems: A Research Agenda [9.84673609667263]
私たちは、企業が機械学習を採用する際に経験する典型的な進化パターンの概念化を提供します。
論文の主なコントリビューションは、MLソリューションを取り巻く重要なエンジニアリング課題の概要を提供する、AIエンジニアリングに関する研究アジェンダである。
論文 参考訳(メタデータ) (2020-01-16T20:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。