論文の概要: Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs
- arxiv url: http://arxiv.org/abs/2505.19489v1
- Date: Mon, 26 May 2025 04:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.159931
- Title: Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs
- Title(参考訳): LinuxカーネルバグのローカライズにおけるLDMエージェントのベンチマークと強化
- Authors: Zhenhao Zhou, Zhuochen Huang, Yike He, Chong Wang, Jiajun Wang, Yijian Wu, Xin Peng, Yiling Lou,
- Abstract要約: フォールトローカライゼーション(FL)は、ソフトウェアのバグのあるコード要素を特定することを目的としている。
最近のLLMエージェントは、SWE-benchのような最近のベンチマークでFLで有望な精度を達成した。
実世界のLinuxカーネルのバグから構築されたFLベンチマークであるLinuxFLBenchを紹介する。
- 参考スコア(独自算出の注目度): 9.986455089493779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Linux kernel is a critical system, serving as the foundation for numerous systems. Bugs in the Linux kernel can cause serious consequences, affecting billions of users. Fault localization (FL), which aims at identifying the buggy code elements in software, plays an essential role in software quality assurance. While recent LLM agents have achieved promising accuracy in FL on recent benchmarks like SWE-bench, it remains unclear how well these methods perform in the Linux kernel, where FL is much more challenging due to the large-scale code base, limited observability, and diverse impact factors. In this paper, we introduce LinuxFLBench, a FL benchmark constructed from real-world Linux kernel bugs. We conduct an empirical study to assess the performance of state-of-the-art LLM agents on the Linux kernel. Our initial results reveal that existing agents struggle with this task, achieving a best top-1 accuracy of only 41.6% at file level. To address this challenge, we propose LinuxFL$^+$, an enhancement framework designed to improve FL effectiveness of LLM agents for the Linux kernel. LinuxFL$^+$ substantially improves the FL accuracy of all studied agents (e.g., 7.2% - 11.2% accuracy increase) with minimal costs. Data and code are available at https://github.com/FudanSELab/LinuxFLBench.
- Abstract(参考訳): Linuxカーネルは重要なシステムであり、多くのシステムの基盤となっている。
Linuxカーネルのバグは深刻な結果をもたらし、数十億のユーザに影響を与える可能性がある。
ソフトウェアにおけるバグのあるコード要素を特定することを目的としたフォールトローカライゼーション(FL)は、ソフトウェア品質保証において重要な役割を果たす。
最近のLLMエージェントは、SWE-benchのような最近のベンチマークでFLで有望な精度を達成したが、これらのメソッドがLinuxカーネルでどれだけうまく機能するかは定かではない。
本稿では,実世界のLinuxカーネルのバグから構築したFLベンチマークであるLinuxFLBenchを紹介する。
我々は,Linuxカーネル上での最先端LLMエージェントの性能を評価するための実証的研究を行った。
最初の結果は、既存のエージェントがこのタスクに苦労していることを示し、ファイルレベルでは41.6%の最高のトップ1の精度を達成した。
この課題に対処するため,Linuxカーネル用のLLMエージェントのFL効率向上を目的とした拡張フレームワークであるLinuxFL$^+$を提案する。
LinuxFL$^+$は、最小コストですべての研究エージェント(例えば7.2%から11.2%の精度向上)のFL精度を大幅に改善する。
データとコードはhttps://github.com/FudanSELab/LinuxFLBench.comで入手できる。
関連論文リスト
- D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
D-LiFT(D-LiFT)は、LLMを活用して強化学習(RL)によるデコンパイルコードの品質向上を図る自動デコンパイラバックエンドである。
D-LiFTは、コンパイルされたコードの品質を高めるための鍵となる原則に準拠している。
D-LiFT の中心となる D-SCORE は、複数の側面から逆コンパイルされたコードを評価するための統合品質評価システムである。
論文 参考訳(メタデータ) (2025-06-11T19:09:08Z) - CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文 参考訳(メタデータ) (2025-04-29T04:18:51Z) - MigGPT: Harnessing Large Language Models for Automated Migration of Out-of-Tree Linux Kernel Patches Across Versions [24.744652237986276]
大規模言語モデル(LLM)は、様々な領域で顕著な進歩を示している。
MigGPTは、コードスニペット情報を保持するために新しいコード指紋構造を使用するフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T08:08:37Z) - Liger Kernel: Efficient Triton Kernels for LLM Training [6.373771349397682]
大規模言語モデル(LLM)を大規模に効果的に訓練することは、ますます増大する計算要求によって引き起こされる、恐ろしい挑戦となる。
LLMトレーニング用に開発されたTritonカーネルのオープンソースセットであるLiger- Kernelを紹介する。
カーネル操作の融合や入力チャンキングといったカーネル最適化技術により、カーネルはトレーニングのスループットが平均20%向上し、GPUメモリ使用量が60%削減された。
論文 参考訳(メタデータ) (2024-10-14T18:17:01Z) - Impact of Large Language Models of Code on Fault Localization [2.936007114555107]
本稿では,FLタスクのための大規模言語モデルの微調整のための,単純だが効果的なシーケンス生成手法を提案する。
具体的には、FLタスク用の代表エンコーダ、エンコーダデコーダ、デコーダベースの13のLLMCを微調整する。
実験結果から, LLMCは50.6%, 64.2%, 72.3%の誤差位置を検出できた。
論文 参考訳(メタデータ) (2024-08-19T02:36:07Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。