論文の概要: KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution
- arxiv url: http://arxiv.org/abs/2407.02680v3
- Date: Mon, 8 Jul 2024 16:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 00:40:30.948777
- Title: KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution
- Title(参考訳): KGym: Linuxカーネルクラッシュ解決のための大規模言語モデルをベンチマークするためのプラットフォームとデータセット
- Authors: Alex Mathai, Chenxi Huang, Petros Maniatis, Aleksandr Nogikh, Franjo Ivancic, Junfeng Yang, Baishakhi Ray,
- Abstract要約: 大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
- 参考スコア(独自算出の注目度): 59.20933707301566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are consistently improving at increasingly realistic software engineering (SE) tasks. In real-world software stacks, significant SE effort is spent developing foundational system software like the Linux kernel. Unlike application-level software, a systems codebase like Linux is multilingual (low-level C/Assembly/Bash/Rust); gigantic (>20 million lines); critical (impacting billions of devices worldwide), and highly concurrent (involving complex multi-threading). To evaluate if ML models are useful while developing such large-scale systems-level software, we introduce kGym (a platform) and kBench (a dataset). The kGym platform provides a SE environment for large-scale experiments on the Linux kernel, including compiling and running kernels in parallel across several virtual machines, detecting operations and crashes, inspecting logs, and querying and patching the code base. We use kGym to facilitate evaluation on kBench, a crash resolution benchmark drawn from real-world Linux kernel bugs. An example bug in kBench contains crashing stack traces, a bug-reproducer file, a developer-written fix, and other associated data. To understand current performance, we conduct baseline experiments by prompting LLMs to resolve Linux kernel crashes. Our initial evaluations reveal that the best performing LLM achieves 0.72% and 5.38% in the unassisted and assisted (i.e., buggy files disclosed to the model) settings, respectively. These results highlight the need for further research to enhance model performance in SE tasks. Improving performance on kBench requires models to master new learning skills, including understanding the cause of crashes and repairing faults, writing memory-safe and hardware-aware code, and understanding concurrency. As a result, this work opens up multiple avenues of research at the intersection of machine learning and systems software.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
アプリケーションレベルのソフトウェアとは異なり、Linuxのようなシステムコードベースはマルチリンガル(低レベルのC/Assembly/Bash/Rust)、巨大(2000万行以上)、クリティカル(世界中の数十億のデバイスを圧倒)、高度に並行(複雑なマルチスレッドを含む)である。
このような大規模システムレベルのソフトウェアを開発する上で,MLモデルが有用かどうかを評価するために,kGym(プラットフォーム)とkBench(データセット)を導入する。
kGymプラットフォームは、Linuxカーネル上で大規模な実験を行うためのSE環境を提供する。複数の仮想マシン間で並列にカーネルをコンパイルし実行し、操作とクラッシュを検出し、ログを検査し、コードベースをクエリし、パッチする。
我々は、kGymを使用して、実世界のLinuxカーネルのバグから引き出されたクラッシュ解決ベンチマークであるkBenchの評価を容易にする。
kBenchの例には、クラッシュするスタックトレース、バグリデューサファイル、開発者による修正、その他の関連データが含まれている。
現在の性能を理解するため,Linuxカーネルのクラッシュの解決をLCMに促すことで,ベースライン実験を行う。
最初の評価では、最高の性能のLCMは、無支援と補助(つまり、モデルに公開されたバグファイル)の設定でそれぞれ0.72%と5.38%を達成することがわかった。
これらの結果は、SEタスクにおけるモデルパフォーマンスを向上させるためのさらなる研究の必要性を浮き彫りにしている。
kBenchのパフォーマンス向上には、クラッシュの原因を理解し、障害を修正すること、メモリセーフでハードウェア対応のコードを書くこと、並行性を理解することなど、新たな学習スキルを習得するモデルが必要だ。
結果として、この研究は機械学習とシステムソフトウェアが交わる様々な研究の道を開くことになる。
関連論文リスト
- Investigating Memory Failure Prediction Across CPU Architectures [8.477622236186695]
本稿では,CPUアーキテクチャ間での補正エラー (CE) と修正不可能エラー (UE) の相関について検討する。
本分析では,各プロセッサプラットフォームに関連するメモリ障害のユニークなパターンを同定する。
異なるプロセッサのプラットフォームでメモリ障害予測を行い、既存のアルゴリズムと比較して最大15%F1スコアの改善を実現した。
論文 参考訳(メタデータ) (2024-06-08T05:10:23Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - GWP-ASan: Sampling-Based Detection of Memory-Safety Bugs in Production [30.534320345970286]
Heap-use-after-freeとheap-buffer-overflowのバグは、CやC++で記述されたアプリケーションのセキュリティ、信頼性、開発者の生産性の主要な問題である。
本稿では,この2種類のメモリセーフなバグを実運用環境でほぼゼロのオーバーヘッドで検出するツール群について述べる。
論文 参考訳(メタデータ) (2023-11-15T21:41:53Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - RLTrace: Synthesizing High-Quality System Call Traces for OS Fuzz Testing [10.644829779197341]
ファズOSカーネルのシードとして多種多様なシステムコールトレースを合成するために,RLTraceと呼ばれる深層強化学習ベースのソリューションを提案する。
モデルトレーニング中、ディープラーニングモデルはOSカーネルと相互作用し、最適なシステムコールトレースを推論する。
RLTraceは,より包括的なシステムコールトレースを生成することにより,他のシードジェネレータよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-04T06:46:00Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - ML-driven Hardware Cost Model for MLIR [1.2987894327817158]
高レベルMLIRのための機械学習に基づくコストモデルを開発した。
MLIRをラ・NLPモデルのテキスト入力として考えることにより、現代のNLP研究からよく知られた技術を適用することができる。
これらのモデルにより,種々のハードウェア特性に対する誤差境界が低く,合理的に優れた推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T11:32:47Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。