Fugu-MT 論文翻訳(概要): LLM4SZZ: Enhancing SZZ Algorithm with Context-Enhanced Assessment on Large Language Models

論文の概要: LLM4SZZ: Enhancing SZZ Algorithm with Context-Enhanced Assessment on Large Language Models

arxiv url: http://arxiv.org/abs/2504.01404v1
Date: Wed, 02 Apr 2025 06:40:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.250728
Title: LLM4SZZ: Enhancing SZZ Algorithm with Context-Enhanced Assessment on Large Language Models
Title（参考訳）: LLM4SZZ:大規模言語モデルにおける文脈向上によるSZZアルゴリズムの強化
Authors: Lingxiao Tang, Jiakun Liu, Zhongxin Liu, Xiaohu Yang, Lingfeng Bao,
Abstract要約: SZZアルゴリズムは、バグ発生コミットを特定する主要な手法である。バグ予測や静的コード解析など、多くのソフトウェア工学研究の基盤となっている。近年,従来のSZZアルゴリズムを強化するために,ディープラーニングに基づくSZZアルゴリズムが導入された。
参考スコア（独自算出の注目度）: 10.525352489242398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The SZZ algorithm is the dominant technique for identifying bug-inducing commits and serves as a foundation for many software engineering studies, such as bug prediction and static code analysis. Researchers have proposed many variants to enhance the SZZ algorithm's performance since its introduction. The majority of them rely on static techniques or heuristic assumptions, making them easy to implement, but their performance improvements are often limited. Recently, a deep learning-based SZZ algorithm has been introduced to enhance the original SZZ algorithm. However, it requires complex preprocessing and is restricted to a single programming language. Additionally, while it enhances precision, it sacrifices recall. Furthermore, most of variants overlook crucial information, such as commit messages and patch context, and are limited to bug-fixing commits involving deleted lines. The emergence of large language models (LLMs) offers an opportunity to address these drawbacks. In this study, we investigate the strengths and limitations of LLMs and propose LLM4SZZ, which employs two approaches (i.e., rank-based identification and context-enhanced identification) to handle different types of bug-fixing commits. We determine which approach to adopt based on the LLM's ability to comprehend the bug and identify whether the bug is present in a commit. The context-enhanced identification provides the LLM with more context and requires it to find the bug-inducing commit among a set of candidate commits. In rank-based identification, we ask the LLM to select buggy statements from the bug-fixing commit and rank them based on their relevance to the root cause. Experimental results show that LLM4SZZ outperforms all baselines across three datasets, improving F1-score by 6.9% to 16.0% without significantly sacrificing recall.
Abstract（参考訳）: SZZアルゴリズムは、バグ誘発コミットを識別する主要な技術であり、バグ予測や静的コード解析などの多くのソフトウェア工学研究の基礎となっている。研究者はSZZアルゴリズムの導入以来、多くの変種を提案している。その多くは静的なテクニックやヒューリスティックな仮定に依存しており、実装が容易だが、パフォーマンスの改善は限られている。近年,従来のSZZアルゴリズムを強化するために,ディープラーニングに基づくSZZアルゴリズムが導入された。しかし、複雑な事前処理が必要であり、単一のプログラミング言語に制限されている。さらに、精度を高める一方で、リコールを犠牲にする。さらに、ほとんどの変種はコミットメッセージやパッチコンテキストといった重要な情報を見落としており、削除された行を含むバグ修正コミットに限定されている。大きな言語モデル(LLM)の出現は、これらの欠点に対処する機会を提供する。本研究では,LLMの強度と限界について検討し,異なるタイプのバグ修正コミットを扱うための2つのアプローチ(ランクベース識別とコンテキスト強化識別)を用いたLSM4SZを提案する。 LLMがバグを理解し、そのバグがコミットに存在するかどうかを識別する能力に基づいて、どのアプローチを採用するかを決定する。コンテキスト強化された識別により、LSMはよりコンテキストを提供し、候補コミットのセットの中でバグ誘発コミットを見つける必要がある。ランクに基づく識別では、LLMにバグ修正コミットからバグ文を選択し、根本原因との関連性に基づいてそれらをランク付けするよう依頼する。実験の結果、LLM4SZは3つのデータセットで全てのベースラインを上回り、F1スコアを6.9%から16.0%改善し、リコールを著しく犠牲にすることなく改善した。

関連論文リスト

SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers [16.80818230868491]
本研究では,最近のNLP論文のアルゴリズム記述からコードを生成する際の言語モデル (LLM) を評価する。厳密な評価を容易にするため、2024年に発行された36のNLP論文から100のタスクのベンチマークであるSciReplicate-Benchを紹介する。 SciReplicate-Bench上に構築されたSci-Reproducerは,論文からアルゴリズムの概念を解釈するPaper Agentと,リポジトリから依存関係を検索してソリューションを実装するCode Agentから構成されるマルチエージェントフレームワークである。
論文参考訳（メタデータ） (2025-03-31T22:02:24Z)
WIA-SZZ: Work Item Aware SZZ [3.7232697932311645]
既存のSZZアルゴリズムは、修正コミットを入力として与えられたときにバグを引き起こした潜在的なコミットを特定する。私たちは、コミットを検出する作業項目を活用して、最初にバグを誘発するコミットを提案する、新しいSZZの亜種を構築します。私たちの評価では、作業項目を見つけるのに64%の正確さが示されていますが、最も重要なのは、多くのバグを誘発するコミットを見つけることができることです。
論文参考訳（メタデータ） (2024-11-19T18:59:14Z)
Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。このアプローチは英語以外のタスクではうまくいきません。モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-15T15:14:01Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing [6.042114639413868]
特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。 LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
論文参考訳（メタデータ） (2024-06-11T20:48:28Z)
Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文参考訳（メタデータ） (2024-06-11T06:53:19Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
Evaluating SZZ Implementations: An Empirical Study on the Linux Kernel [8.698309437598944]
ゴーストコミットがSZZアルゴリズムに与える影響の評価は依然として限られている。 Linuxカーネル開発者は、標準のプラクティスとして、対応するバグ誘発コミット(s)のコミット識別子でバグ修正パッチのラベル付けを始めた。本稿では6つのSZZアルゴリズムを76,046対のバグ修正パッチとLinuxカーネルからのバグ発生コミットに適用する。
論文参考訳（メタデータ） (2023-08-09T16:41:27Z)
GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。 GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文参考訳（メタデータ） (2023-05-24T09:16:51Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。