論文の概要: Large Language Models in Code Co-generation for Safe Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2505.19658v1
- Date: Mon, 26 May 2025 08:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.270132
- Title: Large Language Models in Code Co-generation for Safe Autonomous Vehicles
- Title(参考訳): 安全自動運転車のためのコードコージェネレーションにおける大規模言語モデル
- Authors: Ali Nouri, Beatriz Cabrero-Daniel, Zhennan Fei, Krishna Ronanki, Håkan Sivencrona, Christian Berger,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアシステムの一部を実装するプロセスを加速するために用いられる。
LLMは、その性質から、安全関連システムの開発に関する、十分に文書化された一連のリスクを伴っている。
4つの安全関連プログラミングタスクにおける6つの最先端LCMの性能を比較した。
我々はこれらのLSMが生み出す最も頻繁な欠陥を質的に分析し、人間のレビュアーを支援するための失敗モードカタログを作成します。
- 参考スコア(独自算出の注目度): 2.9412498294532856
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Software engineers in various industrial domains are already using Large Language Models (LLMs) to accelerate the process of implementing parts of software systems. When considering its potential use for ADAS or AD systems in the automotive context, there is a need to systematically assess this new setup: LLMs entail a well-documented set of risks for safety-related systems' development due to their stochastic nature. To reduce the effort for code reviewers to evaluate LLM-generated code, we propose an evaluation pipeline to conduct sanity-checks on the generated code. We compare the performance of six state-of-the-art LLMs (CodeLlama, CodeGemma, DeepSeek-r1, DeepSeek-Coders, Mistral, and GPT-4) on four safety-related programming tasks. Additionally, we qualitatively analyse the most frequent faults generated by these LLMs, creating a failure-mode catalogue to support human reviewers. Finally, the limitations and capabilities of LLMs in code generation, and the use of the proposed pipeline in the existing process, are discussed.
- Abstract(参考訳): 様々な産業領域のソフトウェアエンジニアは、ソフトウェアシステムの一部を実装するプロセスを加速するために、既にLarge Language Models (LLM)を使っている。
自動車環境でのADASやADシステムの利用の可能性を考えると、この新たな設定を体系的に評価する必要がある。
コードレビュアがLCM生成したコードを評価する労力を減らすために,生成されたコードに対して健全性チェックを行うための評価パイプラインを提案する。
我々は,4つの安全性関連プログラミングタスクにおける6つの最先端LCM(CodeLlama,CodeGemma,DeepSeek-r1,DeepSeek-Coders,Mistral,GPT-4)の性能を比較した。
さらに、これらのLCMが生み出す最も頻繁な障害を質的に分析し、ヒューマンレビュアーをサポートするための失敗モードカタログを作成します。
最後に、コード生成におけるLLMの限界と能力、および既存のプロセスにおける提案されたパイプラインの使用について論じる。
関連論文リスト
- CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。
これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。
複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T21:41:37Z) - Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications [0.9105696129628794]
大規模言語モデル(LLM)は多くの分野においてその顕著な能力を示している。
この調査は、LLMがユーザに対して、技術的背景に関係なく、ヒューマン言語を使用して実行可能なコードを自動的に生成する方法に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-03T07:17:30Z) - Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。
本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文 参考訳(メタデータ) (2025-02-19T17:53:59Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - LLM4PLC: Harnessing Large Language Models for Verifiable Programming of
PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。
本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。
GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文 参考訳(メタデータ) (2024-01-08T23:52:42Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。