論文の概要: Rethinking Kernel Program Repair: Benchmarking and Enhancing LLMs with RGym
- arxiv url: http://arxiv.org/abs/2511.15757v1
- Date: Wed, 19 Nov 2025 09:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.319842
- Title: Rethinking Kernel Program Repair: Benchmarking and Enhancing LLMs with RGym
- Title(参考訳): カーネルプログラムの修復を再考する - RGymによるLLMのベンチマークと強化
- Authors: Kareem Shehada, Yifan Wu, Wyatt D. Feng, Adithya Iyer, Gryphon Kumfert, Yangruibo Ding, Zhiyun Qian,
- Abstract要約: RGymはLinuxカーネル向けの軽量でプラットフォームに依存しないAPR評価フレームワークである。
局所化技術を利用した簡易かつ効果的なAPRパイプラインを提案する。
GPT-5シンキングで43.36%のパスレートを実現した。
- 参考スコア(独自算出の注目度): 15.651355260500857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized automated program repair (APR) but current benchmarks like SWE-Bench predominantly focus on userspace applications and overlook the complexities of kernel-space debugging and repair. The Linux kernel poses unique challenges due to its monolithic structure, concurrency, and low-level hardware interactions. Prior efforts such as KGym and CrashFixer have highlighted the difficulty of APR in this domain, reporting low success rates or relying on costly and complex pipelines and pricey cloud infrastructure. In this work, we introduce RGym, a lightweight, platform-agnostic APR evaluation framework for the Linux kernel designed to operate on local commodity hardware. Built on RGym, we propose a simple yet effective APR pipeline leveraging specialized localization techniques (e.g., call stacks and blamed commits) to overcome the unrealistic usage of oracles in KGym. We test on a filtered and verified dataset of 143 bugs. Our method achieves up to a 43.36% pass rate with GPT-5 Thinking while maintaining a cost of under $0.20 per bug. We further conduct an ablation study to analyze contributions from our proposed localization strategy, prompt structure, and model choice, and demonstrate that feedback-based retries can significantly enhance success rates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動プログラム修復(APR)に革命をもたらしたが、SWE-Benchのような現在のベンチマークは主にユーザ空間アプリケーションに焦点を当て、カーネル空間のデバッグと修復の複雑さを見落としている。
Linuxカーネルは、モノリシックな構造、並行性、低レベルのハードウェアインタラクションのために、ユニークな課題を生んでいる。
KGymやCrashFixerといった以前の取り組みは、この領域におけるAPRの難しさを強調し、成功率の低さや、高価な複雑なパイプラインと高価なクラウドインフラストラクチャに依存していることを報告していた。
本稿では,ローカルコモディティハードウェアで動作するように設計されたLinuxカーネルを対象とした,軽量でプラットフォームに依存しないAPR評価フレームワークであるRGymを紹介する。
RGymをベースとして構築された,KGymにおけるオーラクルの非現実的な使用を克服するために,特殊なローカライズ手法(スタックの呼び出しやコミットの非難など)を活用する,シンプルかつ効果的なAPRパイプラインを提案する。
フィルタで検証された143のバグのデータセットをテストする。
提案手法は,GPT-5シンキングで最大43.36%のパスレートを実現し,バグ1件あたり0.20ドル以下のコストを維持した。
さらに,提案するローカライゼーション戦略,プロンプト構造,モデル選択からのコントリビューションを分析し,フィードバックに基づくリトライが成功率を大幅に向上させることを示す。
関連論文リスト
- QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。
本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。
LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文 参考訳(メタデータ) (2025-11-03T03:20:26Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - REFINE: Enhancing Program Repair Agents through Context-Aware Patch Refinement [12.995571513415905]
大規模言語モデル(LLM)は、最近、自動プログラム修復(APR)に強い可能性を示している。
LLMは、コードコンテキストの限定的な理解と不完全なテストスイートへの過度な信頼のために、正しい修正を作成するのに苦労することが多い。
本稿では,ドラフトパッチを正しいものに体系的に変換する新しいパッチリファインメントフレームワークRefineを提案する。
論文 参考訳(メタデータ) (2025-10-04T00:34:32Z) - ViTAD: Timing Violation-Aware Debugging of RTL Code using Large Language Models [7.564898429501228]
ViTADは、タイミング違反の根本原因を効率的に分析し、ターゲットとする修復戦略を動的に生成する手法である。
STDGに基づいて、違反経路解析を行い、大きな言語モデル(LLM)を用いて違反の根本原因を推測する。
LLMのみを用いたベースラインは54.38%であるのに対し,本手法はタイミング違反の修復において73.68%の成功率を達成した。
論文 参考訳(メタデータ) (2025-08-18T16:41:32Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code [0.0]
本研究では,Large Language Models (LLMs) のLinear Programming (LP) コード生成における効率性について検討する。
自然言語問題文からGurobiベースのLPコードを合成する検索拡張生成フレームワークCHORUSを提案する。
NL4-Codeベンチマークの実験では、CHORUSはベースラインや従来のRAGに比べて大きなマージンでオープンソースのLLMの性能を改善している。
論文 参考訳(メタデータ) (2025-05-02T16:36:57Z) - CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文 参考訳(メタデータ) (2025-04-29T04:18:51Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。