論文の概要: MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs
- arxiv url: http://arxiv.org/abs/2507.19525v1
- Date: Sun, 20 Jul 2025 05:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.471464
- Title: MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs
- Title(参考訳): MMCircuitEval: LLM評価のための総合的マルチモーダル回路焦点ベンチマーク
- Authors: Chenchen Zhao, Zhengyuan Shi, Xiangyu Wen, Chengjie Liu, Yi Liu, Yunhao Zhou, Yuxiang Zhao, Hefei Feng, Yinan Zhu, Gwok-Waa Wan, Xin Cheng, Weiyu Chen, Yongqi Fu, Chujie Chen, Chenhao Xue, Guangyu Sun, Ying Wang, Yibo Lin, Jun Yang, Ning Xu, Xi Wang, Qiang Xu,
- Abstract要約: 電子設計自動化(EDA)における自動化と強化のための有望な機会を提供するマルチモーダル大言語モデル(MLLM)
MMCircuitEvalは,多種多様なEDAタスク間のMLLM性能を評価するために設計された,最初のマルチモーダルベンチマークである。
MMCircuitEvalは、重要なEDAステージにまたがるデジタル回路とアナログ回路にまたがる3614の精巧にキュレートされた質問応答(QA)ペアから構成される。
- 参考スコア(独自算出の注目度): 25.945493464645548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of multimodal large language models (MLLMs) presents promising opportunities for automation and enhancement in Electronic Design Automation (EDA). However, comprehensively evaluating these models in circuit design remains challenging due to the narrow scope of existing benchmarks. To bridge this gap, we introduce MMCircuitEval, the first multimodal benchmark specifically designed to assess MLLM performance comprehensively across diverse EDA tasks. MMCircuitEval comprises 3614 meticulously curated question-answer (QA) pairs spanning digital and analog circuits across critical EDA stages - ranging from general knowledge and specifications to front-end and back-end design. Derived from textbooks, technical question banks, datasheets, and real-world documentation, each QA pair undergoes rigorous expert review for accuracy and relevance. Our benchmark uniquely categorizes questions by design stage, circuit type, tested abilities (knowledge, comprehension, reasoning, computation), and difficulty level, enabling detailed analysis of model capabilities and limitations. Extensive evaluations reveal significant performance gaps among existing LLMs, particularly in back-end design and complex computations, highlighting the critical need for targeted training datasets and modeling approaches. MMCircuitEval provides a foundational resource for advancing MLLMs in EDA, facilitating their integration into real-world circuit design workflows. Our benchmark is available at https://github.com/cure-lab/MMCircuitEval.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の出現は、電子設計自動化(EDA)における自動化と強化の有望な機会を提供する。
しかしながら、これらのモデルを回路設計で包括的に評価することは、既存のベンチマークの範囲が狭いため、依然として困難である。
MMCircuitEvalは,多種多様なEDAタスクを包括的にMLLM性能を評価するために設計された,最初のマルチモーダルベンチマークである。
MMCircuitEvalは、デジタルおよびアナログ回路にまたがる3614の精巧にキュレートされた質問応答(QA)ペアで構成されており、一般的な知識や仕様からフロントエンドやバックエンドの設計まで、重要なEDAステージにまたがっている。
教科書、技術質問銀行、データシート、および実世界のドキュメントから派生したQAペアは、正確性と関連性に関する厳密な専門家レビューを受けています。
本ベンチマークでは, 設計段階, 回路タイプ, テスト能力(知識, 理解, 推論, 計算) , 難易度等を一意に分類し, モデル能力と限界の詳細な解析を可能にする。
大規模な評価では、既存のLLM、特にバックエンド設計と複雑な計算において、大きなパフォーマンスギャップが示され、ターゲットとするトレーニングデータセットとモデリングアプローチに対する重要なニーズが浮かび上がっている。
MMCircuitEvalは、EDAにおけるMLLMの進化のための基礎的なリソースを提供し、現実世界の回路設計ワークフローへの統合を促進する。
私たちのベンチマークはhttps://github.com/cure-lab/MMCircuitEval.comで公開されています。
関連論文リスト
- AMSbench: A Comprehensive Benchmark for Evaluating MLLM Capabilities in AMS Circuits [11.372367666471442]
Analog/Mixed-Signal (AMS) 回路設計は、その困難さと複雑さのため、長年にわたる課題である。
MLLM(Multi-modal Large Language Models)の最近の進歩は、AMS回路解析と設計をサポートする有望な可能性を提供する。
AMSbenchは、回路スキーマ認識、回路解析、回路設計を含む重要なタスクにわたってMLLMの性能を評価するために設計されたベンチマークスイートである。
論文 参考訳(メタデータ) (2025-05-30T02:17:45Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - LLM-based AI Agent for Sizing of Analog and Mixed Signal Circuit [2.979579757819132]
大規模言語モデル (LLM) は様々な分野において大きな可能性を証明している。
本研究では,AMS回路設計のためのLLMベースのAIエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-14T22:18:16Z) - AMSnet-KG: A Netlist Dataset for LLM-based AMS Circuit Auto-Design Using Knowledge Graph RAG [15.61553255884534]
大型言語モデル(LLM)は電子設計自動化(EDA)アプリケーションのための強力なツールとして登場した。
本稿では,様々なAMS回路スキーマとネットリストを含むデータセットであるAMSnet-KGを紹介する。
LLMに埋め込まれた包括的知識を利用する自動AMS回路生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-07T02:49:53Z) - EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark [10.265704144939503]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、科学や数学など様々な分野で有望なスキルを実証している。
実用工学的課題の解決におけるLMMの能力評価を目的としたマルチモーダルベンチマークであるEEE-Benchを提案する。
我々のベンチマークは、アナログ回路や制御システムなど10の必須課題にまたがる2860の慎重に計算された問題からなる。
論文 参考訳(メタデータ) (2024-11-03T09:17:56Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning [50.45558735526665]
具体的タスクプランニングにおけるMFMの性能について,より深く,包括的に評価する。
我々は,その複雑で可変なタスクシナリオを特徴付けるMFE-ETPという新しいベンチマークを提案する。
ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。
論文 参考訳(メタデータ) (2024-07-06T11:07:18Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - DesignQA: A Multimodal Benchmark for Evaluating Large Language Models' Understanding of Engineering Documentation [3.2169312784098705]
本研究は,多モーダル大規模言語モデル(MLLM)の熟練度を評価するための新しいベンチマークであるDesignQAを紹介する。
DesignQAは、フォーミュラSAE学生コンペティションから派生したマルチモーダルデータ、テキストデザイン要件、CADイメージ、エンジニアリング図面を独自に組み合わせている。
論文 参考訳(メタデータ) (2024-04-11T16:59:54Z) - LLM4EDA: Emerging Progress in Large Language Models for Electronic
Design Automation [74.7163199054881]
大規模言語モデル(LLM)は、文脈理解、論理推論、回答生成においてその能力を実証している。
本稿では,EDA分野におけるLLMの応用に関する系統的研究を行う。
論理合成,物理設計,マルチモーダル特徴抽出,回路のアライメントにLLMを適用することに焦点を当て,今後の研究の方向性を強調した。
論文 参考訳(メタデータ) (2023-12-28T15:09:14Z) - EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized and Reproducible ML for EDA Research [7.754108359835169]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。