Fugu-MT 論文翻訳(概要): Enhancing the Robustness of LLM-Generated Code: Empirical Study and Framework

論文の概要: Enhancing the Robustness of LLM-Generated Code: Empirical Study and Framework

arxiv url: http://arxiv.org/abs/2503.20197v1
Date: Wed, 26 Mar 2025 03:44:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.037242
Title: Enhancing the Robustness of LLM-Generated Code: Empirical Study and Framework
Title（参考訳）: LLM生成コードのロバスト性を高める:実証的研究とフレームワーク
Authors: ZiKe Li, MingWei Liu, Anji Li, Kaifeng He, Yanlin Wang, Xin Peng, Zibin Zheng,
Abstract要約: RobGenは、モデルの再トレーニングを必要とせずに、コードの堅牢性を高めるように設計されたフレームワークである。 RobGenは、ロバストなモデル生成コードの比率を20.0%削減する。
参考スコア（独自算出の注目度）: 25.793118619876513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ensuring the robustness of code generated by large language models (LLMs) is crucial for real-world reliability. However, existing evaluations predominantly focus on correctness, often neglecting key robustness concerns such as missing input validation and insufficient error handling. In this paper, we present the first empirical study on the robustness of LLM-generated code. We introduce novel robustness metrics and analyze four state-of-the-art code LLMs, revealing that, on average, 43.1% of their generated code is less robust than human-written counterparts. Notably, over 90% of robustness deficiencies stem from missing conditional checks, with 70% of these omissions occurring in the first line of code. Additionally, in 69% of cases where a conditional statement is necessary but absent, the "if" token still ranks third or higher in the model's predicted token probabilities, indicating an implicit recognition of control structures. Building on these findings, we propose RobGen, a framework designed to enhance code robustness without requiring model retraining. RobGen leverages two model-agnostic techniques: RobGen-Adj, which dynamically adjusts token probabilities during decoding to encourage the inclusion of control structures, and RobGen-Ins, which improves generated code by inserting missing conditionals after generation. Experimental results demonstrate that RobGen reduces the proportion of less robust model-generated code by 20.0%, significantly enhancing code reliability across diverse tasks. As a lightweight and adaptable solution, RobGen effectively mitigates robustness challenges in LLM-generated code. All code and data are available at https://github.com/SYSUSELab/RobGen.
Abstract（参考訳）: 大規模言語モデル(LLM)によって生成されたコードの堅牢性を保証することは、現実の信頼性に不可欠である。しかし、既存の評価は主に正確性に焦点を当てており、しばしば入力検証の欠如やエラー処理の不十分といった重要な堅牢性に関する懸念を無視している。本稿では,LLM生成コードのロバスト性に関する最初の実証的研究について述べる。我々は、新しいロバストネスメトリクスを導入し、4つの最先端のコードLLMを分析し、平均して、生成したコードの43.1%は、人間が書いたものよりもロバストではないことを示した。特に、ロバスト性欠陥の90%以上が条件チェックの欠如によるもので、その70%がコードの最初の行で発生している。さらに、条件文が必須だが欠落しているケースの69%では、"if"トークンはモデルが予測するトークン確率の3分の1以上を占めており、制御構造の暗黙的な認識を示している。これらの知見に基づいて、モデルの再トレーニングを必要とせずに、コードの堅牢性を高めるように設計されたフレームワーク、RobGenを提案する。 RobGen-Adjはデコード中にトークンの確率を動的に調整して制御構造の導入を促進する。実験の結果、RobGenはロバストなモデル生成コードの比率を20.0%削減し、多様なタスクにわたるコードの信頼性を大幅に向上させた。軽量で適応可能なソリューションとして、RobGenはLLM生成コードの堅牢性を効果的に軽減する。すべてのコードとデータはhttps://github.com/SYSUSELab/RobGenで入手できる。

関連論文リスト

LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15～40%改善されている。
論文参考訳（メタデータ） (2025-07-22T13:36:33Z)
A Mixture of Linear Corrections Generates Secure Code [20.94236753015922]
大規模言語モデル(LLM)は、洗練されたコード生成タスクに熟練しているが、コードの脆弱性を確実に検出または回避するには効果がない。現在のLLMは、脆弱なコードとセキュアなコードとを区別する正確な内部表現を符号化している。本研究では,モデルのトークン生成確率を補正によって微調整する推論時ステアリング手法を開発した。
論文参考訳（メタデータ） (2025-07-13T06:27:33Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
CodeCrash: Stress Testing LLM Reasoning under Structural and Semantic Perturbations [36.60702578561009]
大規模言語モデル(LLM)は、最近、コード関連のタスクにおいて強力な能力を示したが、コード理解と推論の堅牢性はまだ十分に調査されていない。既存の2つのデータセットから1,279の質問をまとめた総合的なストレステストベンチマークであるCodeCrashを紹介する。我々は,直接的および連鎖的プロンプト手法を用いて,入力および出力予測タスクにまたがる17個のLLMを体系的に評価した。
論文参考訳（メタデータ） (2025-04-19T00:40:28Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Cracks in The Stack: Hidden Vulnerabilities and Licensing Risks in LLM Pre-Training Datasets [5.0091559832205155]
トレーニングデータの質を向上させるために,自動ソースコード自動計算手法を提案する。 Stack v2データセットを用いてこの手法を評価し,データセットのコードバージョンのうち17%に新しいバージョンがあることを確認した。私たちは、AIツールが生成する出力の信頼性を高める可能性があり、自動データキュレーションのプロセス改善に刺激を与えることを期待しています。
論文参考訳（メタデータ） (2025-01-05T18:54:25Z)
On the Adversarial Robustness of Instruction-Tuned Large Language Models for Code [4.286327408435937]
厳密なメトリクスと確立されたベンチマークを用いて、多様な入力課題が生成されたコードの機能と正確性に与える影響を評価する。オープンソースモデルは入力摂動に対する感受性が増大し、機能的正しさは12%から34%にまで低下した。対照的に、商用モデルは比較的高いレジリエンスを示し、性能劣化は3%から24%である。
論文参考訳（メタデータ） (2024-11-29T07:00:47Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Understanding Defects in Generated Codes by Language Models [0.669087470775851]
本研究では,大規模言語モデルによって生成されたコードスニペットの367の欠陥を分類,解析する。エラーカテゴリは、LLMが頻繁に失敗する重要な領域を示し、目標とする改善の必要性を強調している。本稿では,スクラッチパッド・プロンプト・プログラム・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・ストラクテッド・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・オブ・ソート・プロンプト・プロンプト・アンド・ストラクテッド・オブ・フォーンティング(Structued Chain-of-Thought Prompting)の5つの迅速な技術技術
論文参考訳（メタデータ） (2024-08-23T21:10:09Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文参考訳（メタデータ） (2024-06-10T00:05:49Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文参考訳（メタデータ） (2020-05-04T01:28:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。