論文の概要: Comparative Analysis of the Code Generated by Popular Large Language Models (LLMs) for MISRA C++ Compliance
- arxiv url: http://arxiv.org/abs/2506.23535v1
- Date: Mon, 30 Jun 2025 05:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.933789
- Title: Comparative Analysis of the Code Generated by Popular Large Language Models (LLMs) for MISRA C++ Compliance
- Title(参考訳): MISRA C++準拠のためのLopular Large Language Models (LLMs) によるコードの比較解析
- Authors: Malik Muhammad Umer,
- Abstract要約: 安全クリティカルなシステムのソフトウェア開発には厳格なエンジニアリングプラクティスとアビオニクスのDO-178Cのような認定基準の遵守が必要です。
DO-178Cは、MISRA C++のようなよく定義されたソフトウェアコーディング標準に準拠する必要があるガイダンス文書である。
MISRA C++に準拠するために、人気のあるLLMが生成するC++コードの比較分析を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-critical systems are engineered systems whose failure or malfunction could result in catastrophic consequences. The software development for safety-critical systems necessitates rigorous engineering practices and adherence to certification standards like DO-178C for avionics. DO-178C is a guidance document which requires compliance to well-defined software coding standards like MISRA C++ to enforce coding guidelines that prevent the use of ambiguous, unsafe, or undefined constructs. Large Language Models (LLMs) have demonstrated significant capabilities in automatic code generation across a wide range of programming languages, including C++. Despite their impressive performance, code generated by LLMs in safety-critical domains must be carefully analyzed for conformance to MISRA C++ coding standards. In this paper, I have conducted a comparative analysis of the C++ code generated by popular LLMs including: OpenAI ChatGPT, Google Gemini, DeepSeek, Meta AI, and Microsoft Copilot for compliance with MISRA C++.
- Abstract(参考訳): 安全クリティカルシステムは、故障や故障が破滅的な結果をもたらす可能性があるシステムである。
安全クリティカルなシステムのソフトウェア開発には厳格なエンジニアリングプラクティスとアビオニクスのDO-178Cのような認定基準の遵守が必要です。
DO-178Cは、MISRA C++のような明確に定義されたソフトウェアコーディング標準に準拠して、曖昧で安全でない、未定義のコンストラクトの使用を防止するためのコーディングガイドラインを強制するガイダンス文書である。
大規模言語モデル(LLM)は、C++を含む幅広いプログラミング言語で自動コード生成機能を示す。
優れた性能にもかかわらず、安全クリティカルなドメインでLLMが生成したコードは、MISRA C++のコーディング標準に従って慎重に分析されなければならない。
本稿では,OpenAI ChatGPT,Google Gemini,DeepSeek,Meta AI,Microsoft Copilotなど,人気のあるLLMが生成するC++コードの比較分析を行った。
関連論文リスト
- CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-22T14:27:17Z) - LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Language Models [3.82562358840301]
本研究は,大規模言語モデル(LLM)のセキュリティを検証し,評価することに焦点を当てる。
コード生成に10種類のLCMを使用し、静的解析により出力を分析した。
AI生成コードに存在する共通弱さ(Common Weaknession, CWE)の量について検討する。
論文 参考訳(メタデータ) (2025-11-24T10:31:53Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - InfCode-C++: Intent-Guided Semantic Retrieval and AST-Structured Search for C++ Issue Resolution [31.437457217953835]
INFCODE-C++は、エンドツーエンドの課題解決のための最初のC++対応自律システムである。
このシステムは、セマンティックコードインテント検索と決定論的AST構造化クエリという2つの補完的な検索メカニズムを組み合わせる。
解像度は25.58%で、MSWEエージェントのパフォーマンスを倍増する10.85ポイントで最強の先行エージェントを上回っている。
論文 参考訳(メタデータ) (2025-11-20T03:05:26Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - Distilling Lightweight Language Models for C/C++ Vulnerabilities [7.45549460594508]
FineSecは、知識蒸留を通じて大規模言語モデルを活用する新しいフレームワークで、C/C++における効率的かつ正確な脆弱性識別を可能にする。
データ準備、トレーニング、評価、継続的学習を統合されたシングルタスクワークフローに統合することで、FineSecは合理化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-10-08T04:58:51Z) - Human-Written vs. AI-Generated Code: A Large-Scale Study of Defects, Vulnerabilities, and Complexity [4.478789600295493]
本稿では,人間の開発者と最先端のLLMであるChatGPT,DeepSeek-Coder,Qwen-Coderの3つのコードを比較した。
我々の評価は、PythonとJavaの2つの広く使われている言語で500万以上のコードサンプルにまたがっており、Orthogonal Defect ClassificationとCommon Weaknessionを使ったセキュリティ脆弱性によって欠陥を分類している。
AI生成コードは一般的にシンプルで、未使用のコンストラクトやハードコードになりがちであるのに対して、人間書きのコードはより構造的な複雑さを示し、保守性の問題の集中度が高い。
論文 参考訳(メタデータ) (2025-08-29T13:51:28Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis [10.268191178804168]
本稿では,Large Language Models (LLM) が生成するコードのセキュリティを,異なるプログラミング言語間で解析する。
我々の研究によると、LLMはコード生成を自動化できるが、そのセキュリティの有効性は言語によって異なる。
論文 参考訳(メタデータ) (2025-02-03T22:03:13Z) - INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。
内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。
提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-23T15:55:07Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Rust for Embedded Systems: Current State, Challenges and Open Problems (Extended Report) [6.414678578343769]
本稿では,組み込みシステムにRUSTを使用する際の現状と課題を総合的に理解するための,最初の体系的研究を行う。
さまざまなカテゴリにまたがる2,836のRUST組込みソフトウェアと5つの静的アプリケーションセキュリティテスト(SAST)ツールのデータセットを収集しました。
既存のRUSTソフトウェアサポートが不十分であること、SASTツールがRUST組み込みソフトウェアの特定の機能に対応できないこと、そして既存のRUSTソフトウェアにおける高度な型の導入が、相互運用可能なコードのエンジニアリングを困難にしていることを発見した。
論文 参考訳(メタデータ) (2023-11-08T23:59:32Z) - ProgSG: Cross-Modality Representation Learning for Programs in
Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。
HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文 参考訳(メタデータ) (2023-05-18T09:44:18Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。