論文の概要: Operational Robustness of LLMs on Code Generation
- arxiv url: http://arxiv.org/abs/2602.18800v1
- Date: Sat, 21 Feb 2026 11:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.320801
- Title: Operational Robustness of LLMs on Code Generation
- Title(参考訳): コード生成におけるLCMの操作ロバスト性
- Authors: Debalina Ghosh Paul, Hong Zhu, Ian Bayley,
- Abstract要約: 現在、大規模言語モデル(LLM)のためのソフトウェア開発において、プログラムコードを生成するために使われるのが一般的である。
本稿では,LLMがコーディングタスクの記述の変化にどれほど敏感であるかを考察する。
このロバスト性を評価するための既存の技術は、自然言語記述の入力データ空間が離散的であるため、コード生成には適さない。
- 参考スコア(独自算出の注目度): 2.9232837969697965
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is now common practice in software development for large language models (LLMs) to be used to generate program code. It is desirable to evaluate the robustness of LLMs for this usage. This paper is concerned in particular with how sensitive LLMs are to variations in descriptions of the coding tasks. However, existing techniques for evaluating this robustness are unsuitable for code generation because the input data space of natural language descriptions is discrete. To address this problem, we propose a robustness evaluation method called scenario domain analysis, which aims to find the expected minimal change in the natural language descriptions of coding tasks that would cause the LLMs to produce incorrect outputs. We have formally proved the theoretical properties of the method and also conducted extensive experiments to evaluate the robustness of four state-of-the-art art LLMs: Gemini-pro, Codex, Llamma2 and Falcon 7B, and have found that we are able to rank these with confidence from best to worst. Moreover, we have also studied how robustness varies in different scenarios, including the variations with the topic of the coding task and with the complexity of its sample solution, and found that robustness is lower for more complex tasks and also lower for more advanced topics, such as multi-threading and data structures.
- Abstract(参考訳): 現在、大規模言語モデル(LLM)のためのソフトウェア開発において、プログラムコードを生成するために使われるのが一般的である。
LLMのロバスト性を評価することが望ましい。
本稿では,LLMがコーディングタスクの記述の変化にどれほど敏感であるかを考察する。
しかし、このロバスト性を評価する既存の手法は、自然言語記述の入力データ空間が離散的であるため、コード生成には適さない。
この問題に対処するため,シナリオ領域解析と呼ばれるロバスト性評価手法を提案し,LLMが誤出力を発生させるようなコーディングタスクの自然言語記述の最小限の変更を求める。
我々は、この手法の理論的特性を正式に証明し、また、ジェミニプロ、コーデックス、ランマ2、ファルコン7Bの4つの最先端技術のロバスト性を評価するための広範な実験を行った。
さらに、コーディングタスクのトピックのバリエーションやサンプルソリューションの複雑さなど、さまざまなシナリオにおけるロバスト性の変化についても検討し、より複雑なタスクではロバスト性が低く、マルチスレッドやデータ構造など、より高度なトピックではロバスト性が低いことが分かった。
関連論文リスト
- CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-22T14:27:17Z) - Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications [0.6813925418351435]
大規模言語モデル(LLM)はソフトウェア開発において不可欠なツールとなり、要求工学、コード生成、レビュータスクに広く利用されている。
本稿では,LLMが自然言語の要求に適合するかどうかを評価する上で,体系的に失敗していることを明らかにする。
以上の結果から,LCMは要件を満たすことのできないコード実装や潜在的な欠陥を含むコード実装を誤って分類することが多いことが判明した。
論文 参考訳(メタデータ) (2025-08-17T13:07:26Z) - Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。
我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文 参考訳(メタデータ) (2025-08-01T15:17:34Z) - Guided Code Generation with LLMs: A Multi-Agent Framework for Complex Code Tasks [1.9198713957364215]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な機能を示している。
複雑な、長いコンテキストプログラミングの課題に対処する上で、それらは重大な制限に直面します。
「案内コード生成のための新しいエージェント・フレームワーク」について紹介する。
論文 参考訳(メタデータ) (2025-01-11T19:21:53Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。