論文の概要: EmbedAgent: Benchmarking Large Language Models in Embedded System Development
- arxiv url: http://arxiv.org/abs/2506.11003v1
- Date: Sat, 19 Apr 2025 12:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.456063
- Title: EmbedAgent: Benchmarking Large Language Models in Embedded System Development
- Title(参考訳): EmbedAgent: 組み込みシステム開発における大規模言語モデルのベンチマーク
- Authors: Ruiyang Xu, Jialun Cao, Mingyuan Wu, Wenliang Zhong, Yaojie Lu, Ben He, Xianpei Han, Shing-Chi Cheung, Le Sun,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、組み込みシステム開発におけるその能力を評価するベンチマークは少ない。
組込みシステム開発における現実の役割をシミュレートするパラダイムである EmbedAgent を紹介する。
組込みシステムプログラミング、回路設計、クロスプラットフォームマイグレーションのための最初の包括的なベンチマークであるEmbedbenchを提案する。
- 参考スコア(独自算出の注目度): 41.849233931919265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promise in various tasks, yet few benchmarks assess their capabilities in embedded system development.In this paper, we introduce EmbedAgent, a paradigm designed to simulate real-world roles in embedded system development, such as Embedded System Programmer, Architect, and Integrator. This paradigm enables LLMs to be tested in tasks that bridge the gap between digital and physical systems, allowing for a more comprehensive assessment of their capabilities. To evaluate LLMs on these tasks, we propose Embedbench, the first comprehensive benchmark for embedded system programming, circuit design, and cross-platform migration.Embedbench consists of 126 cases, covering 9 electronic components across 3 hardware platforms. Through extensive experiments on 10 mainstream LLMs, we uncover several key findings. Surprisingly, despite the simplicity of the cases, DeepSeek-R1 achieves only a 55.6% pass@1 rate when provided with schematic information, and 50.0% when tasked with generating the schematics itself. In the cross-platform migration tasks, LLMs show relatively strong performance with MicroPython on the Raspberry Pi Pico (with the top model achieving 73.8% pass@1), but perform poorly on ESP-IDF, where the best model reaches only 29.4% pass@1.Interestingly, we observe that general-purpose chat LLMs like DeepSeek-V3 often fail to utilize relevant pre-trained knowledge in this domain, while reasoning LLMs tend to overthink and overlook efficient knowledge during pretraining. Based on these insights, we propose two strategies: retrieval augmented generation and compiler feedback-to enhance LLM performance. These strategies result in significant improvements, with Deepseek-R1 reaching a 65.1% pass@1 with correct schematics, and 53.1% without. Additionally, the accuracy of the Arduino to ESP32 migration task improves from 21.4% to 27.8%.
- Abstract(参考訳): 本稿では,組み込みシステム開発における実世界の役割をシミュレートするパラダイムであるEmbedAgentを紹介する。
このパラダイムは、LLMをデジタルシステムと物理システムのギャップを埋めるタスクでテストし、それらの能力をより包括的な評価を可能にする。
組込みシステムプログラミング,回路設計,クロスプラットフォームマイグレーションのための最初の総合ベンチマークであるEmbedbenchを提案する。Embedbenchは,3つのハードウェアプラットフォームにまたがる9つの電子部品をカバーする126のケースで構成されている。
10個のLLMの広範な実験により,いくつかの重要な発見が得られた。
驚くべきことに、これらのケースの単純さにもかかわらず、DeepSeek-R1は、スキーマ情報を提供する場合55.6%のpass@1レート、スキーマ情報自体を生成する場合の50.0%しか達成していない。
クロスプラットフォームのマイグレーションタスクでは、Raspberry Pi Pico上でのMicroPython(トップモデルは73.8% pass@1)のパフォーマンスが比較的高いが、最高のモデルが29.4% pass@1.にしか達しないESP-IDFではパフォーマンスが良くない。
これらの知見に基づき,LLM性能を向上させるための拡張生成とコンパイラフィードバックの2つの戦略を提案する。
これらの戦略は大幅に改善され、Deepseek-R1は65.1%のpass@1に、正しいスキーマ付きで53.1%に到達した。
さらに、ArduinoからESP32への移行タスクの精度は21.4%から27.8%に向上した。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Enhancing LLMs for Power System Simulations: A Feedback-driven Multi-agent Framework [1.4255659581428337]
本稿では,電力系統のシミュレーションを管理するためのフィードバック駆動型マルチエージェントフレームワークを提案する。
改良された検索拡張生成モジュール(RAG)、改良された推論モジュール、エラーフィードバック機構を備えた動的環境作用モジュールの3つのモジュールが提案されている。
ChatGPT 4o、o1-preview、微調整されたGPT-4oは、いずれも複雑なタスクで30%未満の成功率を達成した。
論文 参考訳(メタデータ) (2024-11-21T19:01:07Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Remember what you did so you know what to do next [10.526351131118096]
我々は,初等科学実験のためのテキストゲームシミュレータであるScienceWorldにおいて,シミュレーションロボットが30の目標を達成する計画を立てる。
実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが示され、タスクに対する平均化が重大なパフォーマンス上の問題を隠蔽する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-30T19:29:00Z) - GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。
モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。
GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文 参考訳(メタデータ) (2023-10-16T09:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。