Fugu-MT 論文翻訳(概要): Assessing LLM code generation quality through path planning tasks

論文の概要: Assessing LLM code generation quality through path planning tasks

arxiv url: http://arxiv.org/abs/2504.21276v1
Date: Wed, 30 Apr 2025 03:11:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 22:42:51.642781
Title: Assessing LLM code generation quality through path planning tasks
Title（参考訳）: 経路計画タスクによるLLMコード生成品質の評価
Authors: Wanyi Chen, Meng-Wen Su, Mary L. Cummings,
Abstract要約: 異なる経路計画アルゴリズムのコードを生成する6つのLSMの能力を評価し, 様々な難易度を持つ3つのマップで検証した。この結果から, LLM生成コードは経路計画アプリケーションにとって重大な危険を伴い, 厳密なテストなしには安全クリティカルな文脈では適用できないことが示唆された。
参考スコア（独自算出の注目度）: 2.2120851074630177
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As LLM-generated code grows in popularity, more evaluation is needed to assess the risks of using such tools, especially for safety-critical applications such as path planning. Existing coding benchmarks are insufficient as they do not reflect the context and complexity of safety-critical applications. To this end, we assessed six LLMs' abilities to generate the code for three different path-planning algorithms and tested them on three maps of various difficulties. Our results suggest that LLM-generated code presents serious hazards for path planning applications and should not be applied in safety-critical contexts without rigorous testing.
Abstract（参考訳）: LLM生成コードが普及するにつれて、特にパス計画のような安全クリティカルなアプリケーションにおいて、そのようなツールを使用するリスクを評価するために、より多くの評価が必要である。既存のコーディングベンチマークは、安全クリティカルなアプリケーションのコンテキストや複雑さを反映していないため、不十分である。そこで我々は,3つの経路計画アルゴリズムのコードを生成する6つのLSMの能力を評価し,様々な難易度を持つ3つのマップ上でテストを行った。この結果から, LLM生成コードは経路計画アプリケーションにとって重大な危険を伴い, 厳密なテストなしには安全クリティカルな文脈では適用できないことが示唆された。

関連論文リスト

Large Language Models in Code Co-generation for Safe Autonomous Vehicles [2.9412498294532856]
大規模言語モデル(LLM)は、ソフトウェアシステムの一部を実装するプロセスを加速するために用いられる。 LLMは、その性質から、安全関連システムの開発に関する、十分に文書化された一連のリスクを伴っている。 4つの安全関連プログラミングタスクにおける6つの最先端LCMの性能を比較した。我々はこれらのLSMが生み出す最も頻繁な欠陥を質的に分析し、人間のレビュアーを支援するための失敗モードカタログを作成します。
論文参考訳（メタデータ） (2025-05-26T08:18:30Z)
From Vulnerabilities to Remediation: A Systematic Literature Review of LLMs in Code Security [0.0]
大規模言語モデル(LLM)は、様々なプログラミングタスクを自動化する強力なツールとして登場した。 LLMはプログラマが知らない脆弱性を導入する可能性がある。コードを解析する際には、明確な脆弱性を見逃したり、存在しない脆弱性を通知する可能性がある。
論文参考訳（メタデータ） (2024-12-19T16:20:22Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Prompting Techniques for Secure Code Generation: A Systematic Investigation [4.777102838267181]
大規模言語モデル(LLM)は、プロンプト駆動プログラミングによるソフトウェア開発で勢いを増している。 LLMによるNL命令から生成されたコードのセキュリティに異なるプロンプト技術が与える影響について検討する。
論文参考訳（メタデータ） (2024-07-09T17:38:03Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-06-18T11:29:34Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
An Insight into Security Code Review with LLMs: Capabilities, Obstacles and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文参考訳（メタデータ） (2024-01-29T17:13:44Z)
SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文参考訳（メタデータ） (2023-11-01T22:46:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。