Fugu-MT 論文翻訳(概要): Large Language Models in Code Co-generation for Safe Autonomous Vehicles

論文の概要: Large Language Models in Code Co-generation for Safe Autonomous Vehicles

arxiv url: http://arxiv.org/abs/2505.19658v1
Date: Mon, 26 May 2025 08:18:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.270132
Title: Large Language Models in Code Co-generation for Safe Autonomous Vehicles
Title（参考訳）: 安全自動運転車のためのコードコージェネレーションにおける大規模言語モデル
Authors: Ali Nouri, Beatriz Cabrero-Daniel, Zhennan Fei, Krishna Ronanki, Håkan Sivencrona, Christian Berger,
Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアシステムの一部を実装するプロセスを加速するために用いられる。 LLMは、その性質から、安全関連システムの開発に関する、十分に文書化された一連のリスクを伴っている。 4つの安全関連プログラミングタスクにおける6つの最先端LCMの性能を比較した。我々はこれらのLSMが生み出す最も頻繁な欠陥を質的に分析し、人間のレビュアーを支援するための失敗モードカタログを作成します。
参考スコア（独自算出の注目度）: 2.9412498294532856
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Software engineers in various industrial domains are already using Large Language Models (LLMs) to accelerate the process of implementing parts of software systems. When considering its potential use for ADAS or AD systems in the automotive context, there is a need to systematically assess this new setup: LLMs entail a well-documented set of risks for safety-related systems' development due to their stochastic nature. To reduce the effort for code reviewers to evaluate LLM-generated code, we propose an evaluation pipeline to conduct sanity-checks on the generated code. We compare the performance of six state-of-the-art LLMs (CodeLlama, CodeGemma, DeepSeek-r1, DeepSeek-Coders, Mistral, and GPT-4) on four safety-related programming tasks. Additionally, we qualitatively analyse the most frequent faults generated by these LLMs, creating a failure-mode catalogue to support human reviewers. Finally, the limitations and capabilities of LLMs in code generation, and the use of the proposed pipeline in the existing process, are discussed.
Abstract（参考訳）: 様々な産業領域のソフトウェアエンジニアは、ソフトウェアシステムの一部を実装するプロセスを加速するために、既にLarge Language Models (LLM)を使っている。自動車環境でのADASやADシステムの利用の可能性を考えると、この新たな設定を体系的に評価する必要がある。コードレビュアがLCM生成したコードを評価する労力を減らすために,生成されたコードに対して健全性チェックを行うための評価パイプラインを提案する。我々は,4つの安全性関連プログラミングタスクにおける6つの最先端LCM(CodeLlama,CodeGemma,DeepSeek-r1,DeepSeek-Coders,Mistral,GPT-4)の性能を比較した。さらに、これらのLCMが生み出す最も頻繁な障害を質的に分析し、ヒューマンレビュアーをサポートするための失敗モードカタログを作成します。最後に、コード生成におけるLLMの限界と能力、および既存のプロセスにおける提案されたパイプラインの使用について論じる。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T21:41:37Z)
Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications [0.9105696129628794]
大規模言語モデル(LLM)は多くの分野においてその顕著な能力を示している。この調査は、LLMがユーザに対して、技術的背景に関係なく、ヒューマン言語を使用して実行可能なコードを自動的に生成する方法に焦点を当てている。
論文参考訳（メタデータ） (2025-03-03T07:17:30Z)
Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文参考訳（メタデータ） (2025-02-19T17:53:59Z)
Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文参考訳（メタデータ） (2024-11-16T01:31:29Z)
Multi-Programming Language Sandbox for LLMs [78.99934332554963]
大規模言語モデル(LLM)用のコンパイラと分析ツールから統一的で包括的なフィードバックを提供するように設計された、アウト・オブ・ザ・ボックスのマルチプログラミング言語サンドボックスコードのプログラミング言語を自動的に識別し、独立したサブサンドボックス内でコンパイルして実行することで、安全性と安定性を確保することができる。
論文参考訳（メタデータ） (2024-10-30T14:46:43Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-06-18T11:29:34Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM4PLC: Harnessing Large Language Models for Verifiable Programming of PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。 GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文参考訳（メタデータ） (2024-01-08T23:52:42Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。