論文の概要: Analyzing the Instability of Large Language Models in Automated Bug Injection and Correction
- arxiv url: http://arxiv.org/abs/2509.06429v1
- Date: Mon, 08 Sep 2025 08:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.017069
- Title: Analyzing the Instability of Large Language Models in Automated Bug Injection and Correction
- Title(参考訳): 自動バグ注入・補正における大規模言語モデルの不安定性の解析
- Authors: Mehmet Bilal Er, Nagehan İlhan, Umut Kuran,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学のタスクで使用される。
同じ入力で異なるタイミングで実行すると、根本的に異なるコードを生成することができる。
本研究では、コードバグの修正に関して、LLMがいかに不安定かを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of Large Language Models (LLMs) in software engineering tasks is growing, especially in the areas of bug fixing and code generation. Nevertheless, these models often yield unstable results; when executed at different times with the same input, they can generate radically different code. The consistency of LLMs in bug-fixing tasks has not yet been thoroughly assessed, despite the fact that this instability has typically been discussed in the literature in relation to code generation. The purpose of this study is to look into how unstable an LLM like ChatGPT is when it comes to fixing code bugs. We examine the structural, syntactic, and functional variations among several fix recommendations made in response to the same prompt using code samples with various error types. Additionally, we assess how instability is affected by the temperature settings (0, 0.5, and 1) used for the model's deterministic operation. For a total of 20 problems in the experimental analysis, the model produced three fix suggestions at each temperature value, comparing nine distinct outputs for each problem. The Syntax Similarity and Output Equivalence Rate (OER) metrics were used to assess the outputs' structural and functional consistency. The results demonstrate that the model's outputs become much more unstable and variable as the temperature rises, with high temperatures showing especially high rates of functional failure. According to syntax similarity analyses, the suggested fixes show notable structural differences at high temperatures but are fairly similar at low temperatures. The purpose of this study is to provide important methodological insights into how LLM-based error correction systems can be applied more consistently in software development processes while also casting doubt on their dependability.
- Abstract(参考訳): ソフトウェアエンジニアリングタスクにおけるLarge Language Models (LLM)の使用は、特にバグ修正やコード生成の分野で増加している。
しかし、これらのモデルは不安定な結果をもたらすことが多く、同じ入力で異なるタイミングで実行されると、根本的に異なるコードを生成することができる。
バグ修正タスクにおけるLLMの一貫性はまだ十分に評価されていないが、この不安定性は典型的にはコード生成に関する文献で議論されている。
この研究の目的は、コードバグの修正に関して、ChatGPTのようなLLMがいかに不安定であるかを調べることである。
様々なエラー型を持つコードサンプルを用いて、同じプロンプトに応答して行われたいくつかの修正提案のうち、構造的、構文的、機能的変異について検討する。
さらに, モデル決定操作に用いる温度設定 (0, 0.5, 1) が不安定性に与える影響を評価する。
実験結果の合計20問題に対して, モデルでは各温度値に対して3つの修正提案を行い, それぞれ9つの異なる出力を比較した。
OER(Syntax similarity and Output Equivalence Rate)メトリクスは、出力の構造的および機能的整合性を評価するために用いられた。
その結果、温度上昇に伴ってモデル出力がより不安定で変動し、特に高温では機能不全の発生率が高くなることが示された。
構文類似性分析によると, 提案した修正は高温では顕著な構造的差異を示すが, 低温では比較的類似している。
本研究の目的は,LCMに基づく誤り訂正システムがソフトウェア開発プロセスにおいてより一貫した適用が可能でありながら,信頼性に疑問を呈する上で重要な方法論的洞察を提供することである。
関連論文リスト
- Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation [40.210132040677]
本稿では,23の現代大言語モデル(LLM)の絶対的性能と相対的ランク付けが,制御的,真に等価な語彙的および構文的摂動に与える影響について検討する。
その結果、語彙的摂動は、ほぼすべてのモデルやタスクに対して、実質的、統計的に有意な性能劣化を誘導する一方、構文的摂動はより異質な効果を持ち、時には結果を改善することが示されている。
論文 参考訳(メタデータ) (2026-02-19T12:24:42Z) - Can Causality Cure Confusion Caused By Correlation (in Software Analytics)? [4.082216579462797]
シンボリックモデル、特に決定木は、説明可能な分析のためにソフトウェア工学で広く使われている。
ソフトウェア工学における最近の研究は、相関モデルと因果発見アルゴリズムの両方が明らかな不安定性に悩まされていることを示している。
本研究では,因果関係を意識した分類基準を,その安定性と堅牢性を改善するための象徴的モデルに分割する。
論文 参考訳(メタデータ) (2026-02-17T23:35:50Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Reliability Under Randomness: An Empirical Analysis of Sparse and Dense Language Models Across Decoding Temperatures [0.0]
スパースMoEモデルにおける条件計算がデコードによるランダム性を増幅し、温度上昇とともに信頼性を低下させるかを検討する。
その結果、スパース命令調整モデルでは、全ての復号温度で高密度命令調整モデルに匹敵する安定性を示すことが示された。
信頼性クリティカルなアプリケーションにスパース言語モデルを展開する上で,これらの結果がもたらす意味について論じる。
論文 参考訳(メタデータ) (2026-01-02T18:10:10Z) - When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - A Large Language Model-Empowered Agent for Reliable and Robust Structural Analysis [14.754785659805869]
大規模言語モデル(LLM)は、様々なオープンドメインタスクにまたがる顕著な能力を示してきたが、土木工学のような専門分野への応用は、いまだに未解明のままである。
本稿では, ビーム構造解析におけるLCMの信頼性とロバスト性を評価することによって, このギャップを埋める。
実験の結果, エージェントはベンチマークデータセット上で99.0%を超える精度を達成し, 多様な条件で信頼性と堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-27T04:16:53Z) - Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning [54.970571745690634]
本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。
我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data [15.366930934639838]
モデルロバスト性と一般化を向上する新しいアプローチであるSALADを提案する。
提案手法は,コントラスト学習のための構造認識および非実効的拡張データを生成する。
本研究のアプローチは,感性分類,性行為検出,自然言語推論の3つのタスクを用いて検証する。
論文 参考訳(メタデータ) (2025-04-16T15:40:10Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。