論文の概要: CrashFixer: A crash resolution agent for the Linux kernel
- arxiv url: http://arxiv.org/abs/2504.20412v1
- Date: Tue, 29 Apr 2025 04:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.749597
- Title: CrashFixer: A crash resolution agent for the Linux kernel
- Title(参考訳): CrashFixer: Linuxカーネルのクラッシュ解決エージェント
- Authors: Alex Mathai, Chenxi Huang, Suwei Ma, Jihwan Kim, Hailie Mitchell, Aleksandr Nogikh, Petros Maniatis, Franjo Ivančić, Junfeng Yang, Baishakhi Ray,
- Abstract要約: この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
- 参考スコア(独自算出の注目度): 58.152358195983155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code large language models (LLMs) have shown impressive capabilities on a multitude of software engineering tasks. In particular, they have demonstrated remarkable utility in the task of code repair. However, common benchmarks used to evaluate the performance of code LLMs are often limited to small-scale settings. In this work, we build upon kGym, which shares a benchmark for system-level Linux kernel bugs and a platform to run experiments on the Linux kernel. This paper introduces CrashFixer, the first LLM-based software repair agent that is applicable to Linux kernel bugs. Inspired by the typical workflow of a kernel developer, we identify the key capabilities an expert developer leverages to resolve a kernel crash. Using this as our guide, we revisit the kGym platform and identify key system improvements needed to practically run LLM-based agents at the scale of the Linux kernel (50K files and 20M lines of code). We implement these changes by extending kGym to create an improved platform - called kGymSuite, which will be open-sourced. Finally, the paper presents an evaluation of various repair strategies for such complex kernel bugs and showcases the value of explicitly generating a hypothesis before attempting to fix bugs in complex systems such as the Linux kernel. We also evaluated CrashFixer's capabilities on still open bugs, and found at least two patch suggestions considered plausible to resolve the reported bug.
- Abstract(参考訳): コード大言語モデル(LLM)は、多数のソフトウェアエンジニアリングタスクにおいて印象的な機能を示している。
特に、彼らはコード修復のタスクにおいて顕著な有用性を示してきた。
しかし、LLMの性能を評価するのによく使われるベンチマークは、小さな設定に限られることが多い。
本研究は,システムレベルのLinuxカーネルバグのベンチマークと,Linuxカーネル上で実験を行うプラットフォームを共有するkGym上に構築する。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
カーネル開発者の典型的なワークフローにインスパイアされた私たちは、専門家開発者がカーネルクラッシュを解決するために利用する重要な機能を特定します。
我々はこれをガイドとして、kGymプラットフォームを再検討し、Linuxカーネル(50Kファイルと2000万行のコード)のスケールでLLMベースのエージェントを実際に実行するために必要な重要なシステム改善を特定します。
この変更は、kGymを拡張して、kGymSuiteと呼ばれる改良されたプラットフォームを作成することで実現します。
最後に、そのような複雑なカーネルのバグに対する様々な修復戦略の評価を行い、Linuxカーネルのような複雑なシステムのバグを修正する前に、仮説を明示的に生成する価値を示す。
我々はまた、まだオープンなバグに対するCrashFixerの機能を評価し、報告されたバグを解決するには、少なくとも2つのパッチ提案を見つけました。
関連論文リスト
- KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Fast Fixes and Faulty Drivers: An Empirical Analysis of Regression Bug Fixing Times in the Linux Kernel [3.1959458747110054]
本稿では、回帰バグの修正に要する時間を考慮して、カーネルの回帰バグ追跡に焦点を当てる。
調査したデータセットは、Linuxカーネルのレグレッションを追跡するregzbot自動化フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-11-04T13:53:29Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - An Investigation of Patch Porting Practices of the Linux Kernel
Ecosystem [39.80455045213432]
Linuxエコシステムにおけるパッチポーティングの応答性について検討する。
この現象を説明するのに役立つパッチポーティング戦略と能力レベルが多様である。
一般的なパッチフローの分析に基づいて推奨する。
論文 参考訳(メタデータ) (2024-02-07T19:38:48Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - KernelGPT: Enhanced Kernel Fuzzing via Large Language Models [8.77369393651381]
我々はLarge Language Models (LLM) を通じてsyscall仕様を自動合成する最初のアプローチである KernelGPT を提案する。
以上の結果から, KernelGPTは最新の技術よりも, より新しい, 有効な仕様を作成できることを示す。
論文 参考訳(メタデータ) (2023-12-31T18:47:33Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。