論文の概要: Analyzing the Instability of Large Language Models in Automated Bug Injection and Correction
- arxiv url: http://arxiv.org/abs/2509.06429v1
- Date: Mon, 08 Sep 2025 08:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.017069
- Title: Analyzing the Instability of Large Language Models in Automated Bug Injection and Correction
- Title(参考訳): 自動バグ注入・補正における大規模言語モデルの不安定性の解析
- Authors: Mehmet Bilal Er, Nagehan İlhan, Umut Kuran,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学のタスクで使用される。
同じ入力で異なるタイミングで実行すると、根本的に異なるコードを生成することができる。
本研究では、コードバグの修正に関して、LLMがいかに不安定かを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of Large Language Models (LLMs) in software engineering tasks is growing, especially in the areas of bug fixing and code generation. Nevertheless, these models often yield unstable results; when executed at different times with the same input, they can generate radically different code. The consistency of LLMs in bug-fixing tasks has not yet been thoroughly assessed, despite the fact that this instability has typically been discussed in the literature in relation to code generation. The purpose of this study is to look into how unstable an LLM like ChatGPT is when it comes to fixing code bugs. We examine the structural, syntactic, and functional variations among several fix recommendations made in response to the same prompt using code samples with various error types. Additionally, we assess how instability is affected by the temperature settings (0, 0.5, and 1) used for the model's deterministic operation. For a total of 20 problems in the experimental analysis, the model produced three fix suggestions at each temperature value, comparing nine distinct outputs for each problem. The Syntax Similarity and Output Equivalence Rate (OER) metrics were used to assess the outputs' structural and functional consistency. The results demonstrate that the model's outputs become much more unstable and variable as the temperature rises, with high temperatures showing especially high rates of functional failure. According to syntax similarity analyses, the suggested fixes show notable structural differences at high temperatures but are fairly similar at low temperatures. The purpose of this study is to provide important methodological insights into how LLM-based error correction systems can be applied more consistently in software development processes while also casting doubt on their dependability.
- Abstract(参考訳): ソフトウェアエンジニアリングタスクにおけるLarge Language Models (LLM)の使用は、特にバグ修正やコード生成の分野で増加している。
しかし、これらのモデルは不安定な結果をもたらすことが多く、同じ入力で異なるタイミングで実行されると、根本的に異なるコードを生成することができる。
バグ修正タスクにおけるLLMの一貫性はまだ十分に評価されていないが、この不安定性は典型的にはコード生成に関する文献で議論されている。
この研究の目的は、コードバグの修正に関して、ChatGPTのようなLLMがいかに不安定であるかを調べることである。
様々なエラー型を持つコードサンプルを用いて、同じプロンプトに応答して行われたいくつかの修正提案のうち、構造的、構文的、機能的変異について検討する。
さらに, モデル決定操作に用いる温度設定 (0, 0.5, 1) が不安定性に与える影響を評価する。
実験結果の合計20問題に対して, モデルでは各温度値に対して3つの修正提案を行い, それぞれ9つの異なる出力を比較した。
OER(Syntax similarity and Output Equivalence Rate)メトリクスは、出力の構造的および機能的整合性を評価するために用いられた。
その結果、温度上昇に伴ってモデル出力がより不安定で変動し、特に高温では機能不全の発生率が高くなることが示された。
構文類似性分析によると, 提案した修正は高温では顕著な構造的差異を示すが, 低温では比較的類似している。
本研究の目的は,LCMに基づく誤り訂正システムがソフトウェア開発プロセスにおいてより一貫した適用が可能でありながら,信頼性に疑問を呈する上で重要な方法論的洞察を提供することである。
関連論文リスト
- A Large Language Model-Empowered Agent for Reliable and Robust Structural Analysis [14.754785659805869]
大規模言語モデル(LLM)は、様々なオープンドメインタスクにまたがる顕著な能力を示してきたが、土木工学のような専門分野への応用は、いまだに未解明のままである。
本稿では, ビーム構造解析におけるLCMの信頼性とロバスト性を評価することによって, このギャップを埋める。
実験の結果, エージェントはベンチマークデータセット上で99.0%を超える精度を達成し, 多様な条件で信頼性と堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-27T04:16:53Z) - Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。
我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data [15.366930934639838]
モデルロバスト性と一般化を向上する新しいアプローチであるSALADを提案する。
提案手法は,コントラスト学習のための構造認識および非実効的拡張データを生成する。
本研究のアプローチは,感性分類,性行為検出,自然言語推論の3つのタスクを用いて検証する。
論文 参考訳(メタデータ) (2025-04-16T15:40:10Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。