論文の概要: EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark
- arxiv url: http://arxiv.org/abs/2411.01492v1
- Date: Sun, 03 Nov 2024 09:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:56.091931
- Title: EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark
- Title(参考訳): EEE-Bench: 総合的なマルチモーダル電気・電子工学ベンチマーク
- Authors: Ming Li, Jike Zhong, Tianle Chen, Yuxiang Lai, Konstantinos Psounis,
- Abstract要約: 大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、科学や数学など様々な分野で有望なスキルを実証している。
実用工学的課題の解決におけるLMMの能力評価を目的としたマルチモーダルベンチマークであるEEE-Benchを提案する。
我々のベンチマークは、アナログ回路や制御システムなど10の必須課題にまたがる2860の慎重に計算された問題からなる。
- 参考スコア(独自算出の注目度): 10.265704144939503
- License:
- Abstract: Recent studies on large language models (LLMs) and large multimodal models (LMMs) have demonstrated promising skills in various domains including science and mathematics. However, their capability in more challenging and real-world related scenarios like engineering has not been systematically studied. To bridge this gap, we propose EEE-Bench, a multimodal benchmark aimed at assessing LMMs' capabilities in solving practical engineering tasks, using electrical and electronics engineering (EEE) as the testbed. Our benchmark consists of 2860 carefully curated problems spanning 10 essential subdomains such as analog circuits, control systems, etc. Compared to benchmarks in other domains, engineering problems are intrinsically 1) more visually complex and versatile and 2) less deterministic in solutions. Successful solutions to these problems often demand more-than-usual rigorous integration of visual and textual information as models need to understand intricate images like abstract circuits and system diagrams while taking professional instructions, making them excellent candidates for LMM evaluations. Alongside EEE-Bench, we provide extensive quantitative evaluations and fine-grained analysis of 17 widely-used open and closed-sourced LLMs and LMMs. Our results demonstrate notable deficiencies of current foundation models in EEE, with an average performance ranging from 19.48% to 46.78%. Finally, we reveal and explore a critical shortcoming in LMMs which we term laziness: the tendency to take shortcuts by relying on the text while overlooking the visual context when reasoning for technical image problems. In summary, we believe EEE-Bench not only reveals some noteworthy limitations of LMMs but also provides a valuable resource for advancing research on their application in practical engineering tasks, driving future improvements in their capability to handle complex, real-world scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)に関する最近の研究は、科学や数学など様々な分野において有望なスキルを実証している。
しかしながら、エンジニアリングのようなより困難で現実的なシナリオにおけるそれらの能力は、体系的に研究されていない。
このギャップを埋めるため,電気・電子工学(EEE)をテストベッドとして,LMMの実用工学的課題の解決能力を評価するためのマルチモーダルベンチマークであるEEE-Benchを提案する。
我々のベンチマークは、アナログ回路や制御システムなど10の必須サブドメインにまたがる2860の慎重に計算された問題からなる。
他の領域のベンチマークと比較すると、工学的な問題は本質的である。
1)より視覚的に複雑で多用途で
2) 解では決定論的でない。
モデルがプロの指示を受けながら抽象回路やシステム図のような複雑な画像を理解する必要があり、LMM評価の優れた候補となる。
EEE-Benchとともに、広く使われている17個のオープンおよびクローズドソースLLMおよびLMMの定量的評価ときめ細かい分析を行う。
その結果、EEEの現在の基盤モデルに顕著な欠陥があり、平均的な性能は19.48%から46.78%である。
最後に,LMMにおける致命的な欠点を明らかにすること,すなわち,技術的イメージ問題の原因となる視覚的コンテキストを見下ろしながら,テキストに依存してショートカットを行う傾向を明らかにする。
まとめると、EEE-BenchはLMMの注目すべき制限を明らかにしているだけでなく、実践的なエンジニアリングタスクにおける研究を進める上で貴重なリソースも提供します。
関連論文リスト
- MIR-Bench: Benchmarking LLM's Long-Context Intelligence via Many-Shot In-Context Inductive Reasoning [21.056519816264505]
我々は,最初のマルチショットインコンテキスト帰納的推論ベンチマークであるMIR-Benchを提案する。
帰納的推論と多発性ICLに関する多くの新しい問題について検討し, 誤写に対する頑健さについて検討した。
論文 参考訳(メタデータ) (2025-02-14T06:05:12Z) - Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。
しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。
LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-04T07:44:49Z) - ElectroVizQA: How well do Multi-modal LLMs perform in Electronics Visual Question Answering? [6.471546061182191]
本稿では、MLLMがデジタル電子回路問題を理解し、解決できる範囲を厳格に評価する。
このベンチマークデータセットを導入することで、MLLMの工学教育への応用におけるさらなる研究と開発を動機付けることを目指している。
論文 参考訳(メタデータ) (2024-11-27T20:25:07Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Status Quo and Problems of Requirements Engineering for Machine
Learning: Results from an International Survey [7.164324501049983]
要求工学(RE)は、機械学習対応システムにおいて多くの問題を解決するのに役立つ。
我々は,ML対応システムにおけるREの現状と問題点について,実践者の知見を収集する調査を行った。
MLプロジェクトでは,REプラクティスに有意な違いが認められた。
論文 参考訳(メタデータ) (2023-10-10T15:53:50Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。