論文の概要: Exploring and Characterizing Large Language Models For Embedded System
Development and Debugging
- arxiv url: http://arxiv.org/abs/2307.03817v1
- Date: Fri, 7 Jul 2023 20:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 17:16:50.706463
- Title: Exploring and Characterizing Large Language Models For Embedded System
Development and Debugging
- Title(参考訳): 組み込みシステム開発とデバッグのための大規模言語モデルの探索と特徴付け
- Authors: Zachary Englhardt, Richard Li, Dilini Nissanka, Zhihan Zhang, Girish
Narayanswamy, Joseph Breda, Xin Liu, Shwetak Patel, Vikram Iyer
- Abstract要約: 大規模言語モデル (LLM) は、コードを生成する際、顕著な能力を示しているが、組み込みシステム用のソフトウェアを開発する能力は研究されていない。
本稿では,組込みシステム開発におけるLCMの性能評価を行う。
組込みシステム構築のためのAIベースのソフトウェアエンジニアリングワークフローを開発する。
- 参考スコア(独自算出の注目度): 7.999151117595075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown remarkable abilities to generate
code, however their ability to develop software for embedded systems, which
requires cross-domain knowledge of hardware and software has not been studied.
In this paper we systematically evaluate leading LLMs (GPT-3.5, GPT-4, PaLM 2)
to assess their performance for embedded system development, study how human
programmers interact with these tools, and develop an AI-based software
engineering workflow for building embedded systems.
We develop an an end-to-end hardware-in-the-loop evaluation platform for
verifying LLM generated programs using sensor actuator pairs. We compare all
three models with N=450 experiments and find surprisingly that GPT-4 especially
shows an exceptional level of cross-domain understanding and reasoning, in some
cases generating fully correct programs from a single prompt. In N=50 trials,
GPT-4 produces functional I2C interfaces 66% of the time. GPT-4 also produces
register-level drivers, code for LoRa communication, and context-specific power
optimizations for an nRF52 program resulting in over 740x current reduction to
12.2 uA. We also characterize the models' limitations to develop a
generalizable workflow for using LLMs in embedded system development. We
evaluate the workflow with 15 users including novice and expert programmers. We
find that our workflow improves productivity for all users and increases the
success rate for building a LoRa environmental sensor from 25% to 100%,
including for users with zero hardware or C/C++ experience.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コードを生成する能力は顕著だが、組み込みシステムのためのソフトウェアを開発する能力は、ハードウェアとソフトウェアのクロスドメイン知識を必要とする。
本稿では,組込みシステム開発におけるLLM(GPT-3.5,GPT-4,PaLM2)の性能評価を体系的に評価し,人間プログラマがこれらのツールとどのように相互作用するかを調査し,組込みシステム構築のためのAIベースのソフトウェアエンジニアリングワークフローを開発する。
センサアクチュエータペアを用いたLCM生成プログラムの検証のためのエンドツーエンドハードウェア・イン・ザ・ループ評価プラットフォームを開発した。
我々は3つのモデルとN=450の実験を比較し、GPT-4が特にドメイン間の理解と推論の異常なレベルを示しており、場合によっては1つのプロンプトから完全に正しいプログラムを生成する。
N=50の試験では、GPT-4は機能的なI2Cインタフェースを66%生成する。
GPT-4はレジスタレベルのドライバ、LoRa通信のコード、nRF52プログラムのコンテキスト固有の電力最適化も生成し、740倍の電流を12.2 uAに削減した。
また,組込みシステム開発において LLM を利用する汎用ワークフローを開発するためのモデルの制限も特徴付ける。
初心者や専門家のプログラマを含む15人のユーザでワークフローを評価します。
当社のワークフローは、すべてのユーザの生産性を向上し、ハードウェアもc/c++エクスペリエンスもないユーザも含む、lora環境センサ構築の成功率を25%から100%に向上させています。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - LLM-Based Test-Driven Interactive Code Generation: User Study and Empirical Evaluation [13.800675921118348]
本稿では,ガイド付き意図明確化のための対話型ワークフローTiCoderを提案する。
コード生成精度を向上させるためのワークフローの有効性を実証的に評価する。
我々は,5つのユーザインタラクション内において,データセットと全LLMのパス@1コード生成精度が平均45.97%向上したことを観察した。
論文 参考訳(メタデータ) (2024-04-15T19:16:32Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。
LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。
しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文 参考訳(メタデータ) (2024-02-22T03:51:34Z) - LLM4PLC: Harnessing Large Language Models for Verifiable Programming of
PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。
本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。
GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文 参考訳(メタデータ) (2024-01-08T23:52:42Z) - Experimenting a New Programming Practice with LLMs [6.8035637735756715]
AISD (AI-Aided Software Development) というプロトタイプを開発している。
高いレベルの(潜在的に曖昧な)ユーザ要求を入力として取り込むことができる。
詳細なユースケース、プロトタイプシステム設計、そしてその後のシステム実装を生成する。
論文 参考訳(メタデータ) (2024-01-02T06:50:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。
この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:25:54Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。