Fugu-MT 論文翻訳(概要): KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution

論文の概要: KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution

arxiv url: http://arxiv.org/abs/2407.02680v5
Date: Tue, 12 Nov 2024 01:39:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.371491
Title: KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution
Title（参考訳）: KGym: Linuxカーネルクラッシュ解決のための大規模言語モデルをベンチマークするためのプラットフォームとデータセット
Authors: Alex Mathai, Chenxi Huang, Petros Maniatis, Aleksandr Nogikh, Franjo Ivancic, Junfeng Yang, Baishakhi Ray,
Abstract要約: 大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
参考スコア（独自算出の注目度）: 59.20933707301566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are consistently improving at increasingly realistic software engineering (SE) tasks. In real-world software stacks, significant SE effort is spent developing foundational system software like the Linux kernel. Unlike application-level software, a systems codebase like Linux is multilingual (low-level C/Assembly/Bash/Rust); gigantic (>20 million lines); critical (impacting billions of devices worldwide), and highly concurrent (involving complex multi-threading). To evaluate if ML models are useful while developing such large-scale systems-level software, we introduce kGym (a platform) and kBench (a dataset). The kGym platform provides a SE environment for large-scale experiments on the Linux kernel, including compiling and running kernels in parallel across several virtual machines, detecting operations and crashes, inspecting logs, and querying and patching the code base. We use kGym to facilitate evaluation on kBench, a crash resolution benchmark drawn from real-world Linux kernel bugs. An example bug in kBench contains crashing stack traces, a bug-reproducer file, a developer-written fix, and other associated data. To understand current performance, we conduct baseline experiments by prompting LLMs to resolve Linux kernel crashes. Our initial evaluations reveal that the best performing LLM achieves 0.72% and 5.38% in the unassisted and assisted (i.e., buggy files disclosed to the model) settings, respectively. These results highlight the need for further research to enhance model performance in SE tasks. Improving performance on kBench requires models to master new learning skills, including understanding the cause of crashes and repairing faults, writing memory-safe and hardware-aware code, and understanding concurrency. As a result, this work opens up multiple avenues of research at the intersection of machine learning and systems software.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。アプリケーションレベルのソフトウェアとは異なり、Linuxのようなシステムコードベースはマルチリンガル(低レベルのC/Assembly/Bash/Rust)、巨大(2000万行以上)、クリティカル(世界中の数十億のデバイスを圧倒)、高度に並行(複雑なマルチスレッドを含む)である。このような大規模システムレベルのソフトウェアを開発する上で,MLモデルが有用かどうかを評価するために,kGym(プラットフォーム)とkBench(データセット)を導入する。 kGymプラットフォームは、Linuxカーネル上で大規模な実験を行うためのSE環境を提供する。複数の仮想マシン間で並列にカーネルをコンパイルし実行し、操作とクラッシュを検出し、ログを検査し、コードベースをクエリし、パッチする。我々は、kGymを使用して、実世界のLinuxカーネルのバグから引き出されたクラッシュ解決ベンチマークであるkBenchの評価を容易にする。 kBenchの例には、クラッシュするスタックトレース、バグリデューサファイル、開発者による修正、その他の関連データが含まれている。現在の性能を理解するため,Linuxカーネルのクラッシュの解決をLCMに促すことで,ベースライン実験を行う。最初の評価では、最高の性能のLCMは、無支援と補助(つまり、モデルに公開されたバグファイル)の設定でそれぞれ0.72%と5.38%を達成することがわかった。これらの結果は、SEタスクにおけるモデルパフォーマンスを向上させるためのさらなる研究の必要性を浮き彫りにしている。 kBenchのパフォーマンス向上には、クラッシュの原因を理解し、障害を修正すること、メモリセーフでハードウェア対応のコードを書くこと、並行性を理解することなど、新たな学習スキルを習得するモデルが必要だ。結果として、この研究は機械学習とシステムソフトウェアが交わる様々な研究の道を開くことになる。

関連論文リスト

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs [9.986455089493779]
フォールトローカライゼーション(FL)は、ソフトウェアのバグのあるコード要素を特定することを目的としている。最近のLLMエージェントは、SWE-benchのような最近のベンチマークでFLで有望な精度を達成した。実世界のLinuxカーネルのバグから構築されたFLベンチマークであるLinuxFLBenchを紹介する。
論文参考訳（メタデータ） (2025-05-26T04:15:48Z)
CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。 CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文参考訳（メタデータ） (2025-04-29T04:18:51Z)
MigGPT: Harnessing Large Language Models for Automated Migration of Out-of-Tree Linux Kernel Patches Across Versions [24.744652237986276]
大規模言語モデル(LLM)は、様々な領域で顕著な進歩を示している。 MigGPTは、コードスニペット情報を保持するために新しいコード指紋構造を使用するフレームワークである。
論文参考訳（メタデータ） (2025-04-13T08:08:37Z)
KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文参考訳（メタデータ） (2025-02-14T19:30:53Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文参考訳（メタデータ） (2024-11-20T13:46:04Z)
Investigating Memory Failure Prediction Across CPU Architectures [8.477622236186695]
本稿では,CPUアーキテクチャ間での補正エラー (CE) と修正不可能エラー (UE) の相関について検討する。本分析では,各プロセッサプラットフォームに関連するメモリ障害のユニークなパターンを同定する。異なるプロセッサのプラットフォームでメモリ障害予測を行い、既存のアルゴリズムと比較して最大15%F1スコアの改善を実現した。
論文参考訳（メタデータ） (2024-06-08T05:10:23Z)
DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。 GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
GWP-ASan: Sampling-Based Detection of Memory-Safety Bugs in Production [30.534320345970286]
Heap-use-after-freeとheap-buffer-overflowのバグは、CやC++で記述されたアプリケーションのセキュリティ、信頼性、開発者の生産性の主要な問題である。本稿では,この2種類のメモリセーフなバグを実運用環境でほぼゼロのオーバーヘッドで検出するツール群について述べる。
論文参考訳（メタデータ） (2023-11-15T21:41:53Z)
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文参考訳（メタデータ） (2023-10-10T16:47:29Z)
RLTrace: Synthesizing High-Quality System Call Traces for OS Fuzz Testing [10.644829779197341]
ファズOSカーネルのシードとして多種多様なシステムコールトレースを合成するために,RLTraceと呼ばれる深層強化学習ベースのソリューションを提案する。モデルトレーニング中、ディープラーニングモデルはOSカーネルと相互作用し、最適なシステムコールトレースを推論する。 RLTraceは,より包括的なシステムコールトレースを生成することにより,他のシードジェネレータよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-10-04T06:46:00Z)
HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。 nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文参考訳（メタデータ） (2023-04-24T19:16:03Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
ML-driven Hardware Cost Model for MLIR [1.2987894327817158]
高レベルMLIRのための機械学習に基づくコストモデルを開発した。 MLIRをラ・NLPモデルのテキスト入力として考えることにより、現代のNLP研究からよく知られた技術を適用することができる。これらのモデルにより,種々のハードウェア特性に対する誤差境界が低く,合理的に優れた推定値が得られることを示す。
論文参考訳（メタデータ） (2023-02-14T11:32:47Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。