Fugu-MT 論文翻訳(概要): Impact of Large Language Models of Code on Fault Localization

論文の概要: Impact of Large Language Models of Code on Fault Localization

arxiv url: http://arxiv.org/abs/2408.09657v1
Date: Mon, 19 Aug 2024 02:36:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 17:44:03.271766
Title: Impact of Large Language Models of Code on Fault Localization
Title（参考訳）: 符号の大規模言語モデルが断層定位に及ぼす影響
Authors: Suhwan Ji, Sanghwa Lee, Changsup Lee, Hyeonseung Im, Yo-Sub Han,
Abstract要約: 本稿では,FLタスクのための大規模言語モデルの微調整のための,単純だが効果的なシーケンス生成手法を提案する。具体的には、FLタスク用の代表エンコーダ、エンコーダデコーダ、デコーダベースの13のLLMCを微調整する。実験結果から, LLMCは50.6%, 64.2%, 72.3%の誤差位置を検出できた。
参考スコア（独自算出の注目度）: 2.936007114555107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifying the point of error is imperative in software debugging. Traditional fault localization (FL) techniques rely on executing the program and using the code coverage matrix in tandem with test case results to calculate a suspiciousness score for each function or line. Recently, learning-based FL techniques have harnessed machine learning models to extract meaningful features from the code coverage matrix and improve FL performance. These techniques, however, require compilable source code, existing test cases, and specialized tools for generating the code coverage matrix for each programming language of interest. In this paper, we propose, for the first time, a simple but effective sequence generation approach for fine-tuning large language models of code (LLMCs) for FL tasks. LLMCs have recently received much attention for various software engineering problems. In line with these, we leverage the innate understanding of code that LLMCs have acquired through pre-training on large code corpora. Specifically, we fine-tune representative encoder, encoder-decoder, and decoder-based 13 LLMCs for FL tasks. Unlike previous approaches, LLMCs can analyze code sequences even with syntactic errors, since they do not rely on compiled input. Still, they have a limitation on the length of the input data. Therefore, for a fair comparison with existing FL techniques, we extract methods with errors from the project-level benchmark, Defects4J, and analyze them at the line level. Experimental results show that LLMCs fine-tuned with our approach successfully pinpoint error positions in 50.6\%, 64.2\%, and 72.3\% of 1,291 methods in Defects4J for Top-1/3/5 prediction, outperforming the best learning-based state-of-the-art technique by up to 1.35, 1.12, and 1.08 times, respectively. Our findings suggest promising research directions for FL and automated program repair tasks using LLMCs.
Abstract（参考訳）: エラー点の特定は、ソフトウェアのデバッグにおいて必須である。従来のフォールトローカライゼーション(FL)技術は、プログラムを実行し、テストケースの結果と一致してコードカバレッジマトリックスを使用して、各関数や行に対する疑わしいスコアを計算する。近年,学習ベースのFL技術は,コードカバレッジマトリックスから意味のある特徴を抽出し,FL性能を向上させるために機械学習モデルを活用している。しかし、これらのテクニックはコンパイル可能なソースコード、既存のテストケース、および各プログラミング言語のコードカバレッジマトリックスを生成するための特別なツールを必要とする。本稿では,FLタスクのための大規模言語モデル(LLMC)を微調整する,単純かつ効果的なシーケンス生成手法を提案する。 LLMCは最近、様々なソフトウェア工学の問題に多くの注目を集めている。これに合わせて、LLMCが大規模なコードコーパスの事前トレーニングを通じて取得した、コード固有の理解を活用します。具体的には、FLタスク用の代表エンコーダ、エンコーダデコーダ、デコーダベースの13のLLMCを微調整する。従来のアプローチとは異なり、LLMCはコンパイルされた入力に依存しないため、構文上のエラーがあってもコードシーケンスを解析できる。それでも、入力データの長さに制限がある。そこで,既存のFL手法と公正に比較するために,プロジェクトレベルのベンチマークであるDefects4Jからエラーのあるメソッドを抽出し,それらをラインレベルで解析する。実験結果から, LLMCは50.6\%, 64.2\%, 72.3\%の誤り点位置を推定し, 最大1.35倍, 1.12倍, 1.08倍の精度で, 最高の学習ベース最先端技術より優れていた。本研究は, LLMCを用いたFLと自動プログラム修復作業における有望な研究方向性を示唆するものである。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models [4.757323827658957]
自動プログラム修正は、開発者がソフトウェアをメンテナンスするのを助けるバグ修正を提案する。近年の研究では、LLMを修復に利用できることが示されている。オープンモデル (Llama 3.3, Qwen 2.5 Coder, DeepSeek R1 (dist.) など) やクローズドモデル (o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash など) を含む,最新の13モデルの多種多様なセットを評価した。
論文参考訳（メタデータ） (2025-06-03T18:15:14Z)
Identifying Root Causes of Null Pointer Exceptions with Logical Inferences [0.21485350418225244]
我々はNull Pointer Exceptions(NPE)のための新しい論理的フォールトローカライズ手法であるLogicFLを提案する。ロジックプログラミングでは、LogicFLはヒューマン開発者の障害ローカライゼーションの推論プロセスを模倣し、欠陥コードやテスト実行に関する収集された事実を論理的に推論した後、NPEの原因を特定する。 Apache CommonsプロジェクトとDefects4Jベンチマークによる76のNPEバグの実証的な評価で、LogicFLは障害箇所を正確に特定し、67のバグの原因となる正確なコードフラグメントを特定した。
論文参考訳（メタデータ） (2024-12-01T23:48:00Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [3.0538467265507574]
アプリケーションセキュリティテスト(SAST)ツールは、早期のバグ検出とコード品質には不可欠だが、しばしば開発を遅くする偽陽性を生成する。自然言語とコードの理解に長けている大規模言語モデルは、SASTツールの正確性とユーザビリティを改善するための有望な方法を提供する。我々の研究は、正確なコードコンテキストと完全なコードコンテキストの重大な影響を強調し、プログラム分析とLLMを組み合わせる可能性を強調します。
論文参考訳（メタデータ） (2024-11-05T13:24:56Z)
Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。 LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
Program Slicing in the Era of Large Language Models [7.990456190723922]
プログラムスライシングはソフトウェア工学において重要なテクニックであり、開発者は関連するコードの部分を分離することができる。本研究では,大規模言語モデル(LLM)の静的スライシングおよび動的プログラムスライシングへの応用について検討する。
論文参考訳（メタデータ） (2024-09-19T00:07:56Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。 LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文参考訳（メタデータ） (2024-02-16T15:21:35Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。 5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文参考訳（メタデータ） (2023-10-03T01:26:39Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。 RM符号は制限されたレートのみを許容する。効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文参考訳（メタデータ） (2023-01-16T04:11:14Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。