論文の概要: CrashFixer: A crash resolution agent for the Linux kernel
- arxiv url: http://arxiv.org/abs/2504.20412v2
- Date: Tue, 13 May 2025 18:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 15:30:05.606424
- Title: CrashFixer: A crash resolution agent for the Linux kernel
- Title(参考訳): CrashFixer: Linuxカーネルのクラッシュ解決エージェント
- Authors: Alex Mathai, Chenxi Huang, Suwei Ma, Jihwan Kim, Hailie Mitchell, Aleksandr Nogikh, Petros Maniatis, Franjo Ivančić, Junfeng Yang, Baishakhi Ray,
- Abstract要約: この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
- 参考スコア(独自算出の注目度): 58.152358195983155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code large language models (LLMs) have shown impressive capabilities on a multitude of software engineering tasks. In particular, they have demonstrated remarkable utility in the task of code repair. However, common benchmarks used to evaluate the performance of code LLMs are often limited to small-scale settings. In this work, we build upon kGym, which shares a benchmark for system-level Linux kernel bugs and a platform to run experiments on the Linux kernel. This paper introduces CrashFixer, the first LLM-based software repair agent that is applicable to Linux kernel bugs. Inspired by the typical workflow of a kernel developer, we identify the key capabilities an expert developer leverages to resolve a kernel crash. Using this as our guide, we revisit the kGym platform and identify key system improvements needed to practically run LLM-based agents at the scale of the Linux kernel (50K files and 20M lines of code). We implement these changes by extending kGym to create an improved platform - called kGymSuite, which will be open-sourced. Finally, the paper presents an evaluation of various repair strategies for such complex kernel bugs and showcases the value of explicitly generating a hypothesis before attempting to fix bugs in complex systems such as the Linux kernel. We also evaluated CrashFixer's capabilities on still open bugs, and found at least two patch suggestions considered plausible to resolve the reported bug.
- Abstract(参考訳): コード大言語モデル(LLM)は、多数のソフトウェアエンジニアリングタスクにおいて印象的な機能を示している。
特に、彼らはコード修復のタスクにおいて顕著な有用性を示してきた。
しかし、LLMの性能を評価するのによく使われるベンチマークは、小さな設定に限られることが多い。
本研究は,システムレベルのLinuxカーネルバグのベンチマークと,Linuxカーネル上で実験を行うプラットフォームを共有するkGym上に構築する。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
カーネル開発者の典型的なワークフローにインスパイアされた私たちは、専門家開発者がカーネルクラッシュを解決するために利用する重要な機能を特定します。
我々はこれをガイドとして、kGymプラットフォームを再検討し、Linuxカーネル(50Kファイルと2000万行のコード)のスケールでLLMベースのエージェントを実際に実行するために必要な重要なシステム改善を特定します。
この変更は、kGymを拡張して、kGymSuiteと呼ばれる改良されたプラットフォームを作成することで実現します。
最後に、そのような複雑なカーネルのバグに対する様々な修復戦略の評価を行い、Linuxカーネルのような複雑なシステムのバグを修正する前に、仮説を明示的に生成する価値を示す。
我々はまた、まだオープンなバグに対するCrashFixerの機能を評価し、報告されたバグを解決するには、少なくとも2つのパッチ提案を見つけました。
関連論文リスト
- Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - Rethinking Kernel Program Repair: Benchmarking and Enhancing LLMs with RGym [15.651355260500857]
RGymはLinuxカーネル向けの軽量でプラットフォームに依存しないAPR評価フレームワークである。
局所化技術を利用した簡易かつ効果的なAPRパイプラインを提案する。
GPT-5シンキングで43.36%のパスレートを実現した。
論文 参考訳(メタデータ) (2025-11-19T09:12:47Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs [9.986455089493779]
フォールトローカライゼーション(FL)は、ソフトウェアのバグのあるコード要素を特定することを目的としている。
最近のLLMエージェントは、SWE-benchのような最近のベンチマークでFLで有望な精度を達成した。
実世界のLinuxカーネルのバグから構築されたFLベンチマークであるLinuxFLBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T04:15:48Z) - MigGPT: Harnessing Large Language Models for Automated Migration of Out-of-Tree Linux Kernel Patches Across Versions [53.811953357289866]
大規模言語モデル(LLM)は、様々な領域で顕著な進歩を示している。
LLMは不完全なコードコンテキスト理解と不正確なマイグレーションポイント識別に苦労する。
MigGPTは、コードスニペット情報を保持するために新しいコード指紋構造を使用するフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T08:08:37Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Fast Fixes and Faulty Drivers: An Empirical Analysis of Regression Bug Fixing Times in the Linux Kernel [3.1959458747110054]
本稿では、回帰バグの修正に要する時間を考慮して、カーネルの回帰バグ追跡に焦点を当てる。
調査したデータセットは、Linuxカーネルのレグレッションを追跡するregzbot自動化フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-11-04T13:53:29Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - An Investigation of Patch Porting Practices of the Linux Kernel
Ecosystem [39.80455045213432]
Linuxエコシステムにおけるパッチポーティングの応答性について検討する。
この現象を説明するのに役立つパッチポーティング戦略と能力レベルが多様である。
一般的なパッチフローの分析に基づいて推奨する。
論文 参考訳(メタデータ) (2024-02-07T19:38:48Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - KernelGPT: Enhanced Kernel Fuzzing via Large Language Models [8.77369393651381]
我々はLarge Language Models (LLM) を通じてsyscall仕様を自動合成する最初のアプローチである KernelGPT を提案する。
以上の結果から, KernelGPTは最新の技術よりも, より新しい, 有効な仕様を作成できることを示す。
論文 参考訳(メタデータ) (2023-12-31T18:47:33Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。