論文の概要: EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark
- arxiv url: http://arxiv.org/abs/2411.01492v1
- Date: Sun, 03 Nov 2024 09:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:56.091931
- Title: EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark
- Title(参考訳): EEE-Bench: 総合的なマルチモーダル電気・電子工学ベンチマーク
- Authors: Ming Li, Jike Zhong, Tianle Chen, Yuxiang Lai, Konstantinos Psounis,
- Abstract要約: 大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、科学や数学など様々な分野で有望なスキルを実証している。
実用工学的課題の解決におけるLMMの能力評価を目的としたマルチモーダルベンチマークであるEEE-Benchを提案する。
我々のベンチマークは、アナログ回路や制御システムなど10の必須課題にまたがる2860の慎重に計算された問題からなる。
- 参考スコア(独自算出の注目度): 10.265704144939503
- License:
- Abstract: Recent studies on large language models (LLMs) and large multimodal models (LMMs) have demonstrated promising skills in various domains including science and mathematics. However, their capability in more challenging and real-world related scenarios like engineering has not been systematically studied. To bridge this gap, we propose EEE-Bench, a multimodal benchmark aimed at assessing LMMs' capabilities in solving practical engineering tasks, using electrical and electronics engineering (EEE) as the testbed. Our benchmark consists of 2860 carefully curated problems spanning 10 essential subdomains such as analog circuits, control systems, etc. Compared to benchmarks in other domains, engineering problems are intrinsically 1) more visually complex and versatile and 2) less deterministic in solutions. Successful solutions to these problems often demand more-than-usual rigorous integration of visual and textual information as models need to understand intricate images like abstract circuits and system diagrams while taking professional instructions, making them excellent candidates for LMM evaluations. Alongside EEE-Bench, we provide extensive quantitative evaluations and fine-grained analysis of 17 widely-used open and closed-sourced LLMs and LMMs. Our results demonstrate notable deficiencies of current foundation models in EEE, with an average performance ranging from 19.48% to 46.78%. Finally, we reveal and explore a critical shortcoming in LMMs which we term laziness: the tendency to take shortcuts by relying on the text while overlooking the visual context when reasoning for technical image problems. In summary, we believe EEE-Bench not only reveals some noteworthy limitations of LMMs but also provides a valuable resource for advancing research on their application in practical engineering tasks, driving future improvements in their capability to handle complex, real-world scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)に関する最近の研究は、科学や数学など様々な分野において有望なスキルを実証している。
しかしながら、エンジニアリングのようなより困難で現実的なシナリオにおけるそれらの能力は、体系的に研究されていない。
このギャップを埋めるため,電気・電子工学(EEE)をテストベッドとして,LMMの実用工学的課題の解決能力を評価するためのマルチモーダルベンチマークであるEEE-Benchを提案する。
我々のベンチマークは、アナログ回路や制御システムなど10の必須サブドメインにまたがる2860の慎重に計算された問題からなる。
他の領域のベンチマークと比較すると、工学的な問題は本質的である。
1)より視覚的に複雑で多用途で
2) 解では決定論的でない。
モデルがプロの指示を受けながら抽象回路やシステム図のような複雑な画像を理解する必要があり、LMM評価の優れた候補となる。
EEE-Benchとともに、広く使われている17個のオープンおよびクローズドソースLLMおよびLMMの定量的評価ときめ細かい分析を行う。
その結果、EEEの現在の基盤モデルに顕著な欠陥があり、平均的な性能は19.48%から46.78%である。
最後に,LMMにおける致命的な欠点を明らかにすること,すなわち,技術的イメージ問題の原因となる視覚的コンテキストを見下ろしながら,テキストに依存してショートカットを行う傾向を明らかにする。
まとめると、EEE-BenchはLMMの注目すべき制限を明らかにしているだけでなく、実践的なエンジニアリングタスクにおける研究を進める上で貴重なリソースも提供します。
関連論文リスト
- A Comprehensive Study on Quantization Techniques for Large Language Models [0.0]
大規模言語モデル(LLM)は、学術と産業の両方で広く研究され、利用されている。
LLMは、リソースに制約のあるIoTデバイスや組み込みシステムにデプロイする上で、重大な課題を提示している。
量子化(Quantization)は、モデルの値の精度を小さな離散値のセットに縮める技術であり、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-30T04:55:26Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Naming the Pain in Machine Learning-Enabled Systems Engineering [8.092979562919878]
機械学習(ML)対応システムは、企業によってますます採用されている。
本稿では,ML対応システムの現状を概観する。
論文 参考訳(メタデータ) (2024-05-20T06:59:20Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Status Quo and Problems of Requirements Engineering for Machine
Learning: Results from an International Survey [7.164324501049983]
要求工学(RE)は、機械学習対応システムにおいて多くの問題を解決するのに役立つ。
我々は,ML対応システムにおけるREの現状と問題点について,実践者の知見を収集する調査を行った。
MLプロジェクトでは,REプラクティスに有意な違いが認められた。
論文 参考訳(メタデータ) (2023-10-10T15:53:50Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。