論文の概要: Learning From Developers: Towards Reliable Patch Validation at Scale for Linux
- arxiv url: http://arxiv.org/abs/2603.24825v1
- Date: Wed, 25 Mar 2026 21:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.99343
- Title: Learning From Developers: Towards Reliable Patch Validation at Scale for Linux
- Title(参考訳): 開発者から学ぶ - Linuxのスケールでの信頼性の高いパッチ検証を目指して
- Authors: Chih-En Lin, Attreyee Mukherjee, Ajay Rawat, Ruqi Zhang, Pedro Fonseca,
- Abstract要約: 本稿では,過去10年間のLinuxメモリ管理サブシステムのパッチレビューについて検討する。
我々は、開発者間の過去の議論から洞察を合成するパッチ検証システムフレームワークであるFLINTを紹介する。
- 参考スコア(独自算出の注目度): 18.09688269810471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patch reviewing is critical for software development, especially in distributed open-source development, which highly depends on voluntary work, such as Linux. This paper studies the past 10 years of patch reviews of the Linux memory management subsystem to characterize the challenges involved in patch reviewing at scale. Our study reveals that the review process is still primarily reliant on human effort despite a wide-range of automatic checking tools. Although kernel developers strive to review all patch proposals, they struggle to keep up with the increasing volume of submissions and depend significantly on a few developers for these reviews. To help scale the patch review process, we introduce FLINT, a patch validation system framework that synthesizes insights from past discussions among developers and automatically analyzes patch proposals for compliance. FLINT employs a rule-based analysis informed by past discussions among developers and an LLM that does not require training or fine-tuning on new data, and can continuously improve with minimum human effort. FLINT uses a multi-stage approach to efficiently distill the essential information from past discussions. Later, when a patch proposal needs review, FLINT retrieves the relevant validation rules for validation and generates a reference-backed report that developers can easily interpret and validate. FLINT targets bugs that traditional tools find hard to detect, ranging from maintainability issues, e.g., design choices and naming conventions, to complex concurrency issues, e.g., deadlocks and data races. FLINT detected 2 new issues in Linux v6.18 development cycle and 7 issues in previous versions. FLINT achieves 21% and 14% of higher ground-truth coverage on concurrency bugs than the baseline with LLM only. Moreover, FLINT achieves a 35% false positive rate, which is lower than the baseline.
- Abstract(参考訳): パッチレビューはソフトウェア開発、特にLinuxのような自発的な作業に大きく依存する分散オープンソース開発において重要である。
本稿では,Linuxメモリ管理サブシステムの過去10年間のパッチレビューを調査し,パッチレビューの大規模化に関わる課題を特徴づける。
本研究は,多岐にわたる自動チェックツールにもかかわらず,レビュープロセスが人間の努力に大きく依存していることを明らかにする。
カーネル開発者はすべてのパッチ提案をレビューしようと努力するが、提出数の増加に遅れず、これらのレビューのために少数の開発者に依存している。
パッチレビュープロセスのスケールアップを支援するために,開発者間の過去の議論から洞察を合成し,コンプライアンスのためのパッチ提案を自動的に分析するパッチ検証システムフレームワークであるFLINTを紹介した。
FLINTでは、開発者の過去の議論や、新たなデータのトレーニングや微調整を必要とせず、最小限の人的労力で継続的に改善できるLLMなど、ルールベースの分析を採用している。
FLINTでは,過去の議論から重要な情報を効率的に抽出するために,多段階的なアプローチを採用している。
その後、パッチ提案をレビューする必要がある場合、FLINTは関連するバリデーションルールを検索し、開発者が容易に解釈し、検証できるリファレンスバックレポートを生成する。
FLINTは、保守性の問題、設計の選択や命名規則、複雑な並行性の問題、例えばデッドロックやデータレースなど、従来のツールが検出するのが難しいバグをターゲットにしている。
FLINTはLinux v6.18の開発サイクルで2つの新しい問題を発見し、以前のバージョンでは7つの問題を発見した。
FLINT は LLM のみのベースラインよりも並列性バグに対して,21% と 14% のゼロトラストカバレッジを実現している。
さらに、FLINTは、ベースラインよりも低い35%の偽陽性率を達成する。
関連論文リスト
- Why Authors and Maintainers Link (or Don't Link) Their PyPI Libraries to Code Repositories and Donation Platforms [83.16077040470975]
Python Package Index(PyPI)上のライブラリのメタデータは、オープンソースライブラリの透明性、信頼性、持続性をサポートする上で重要な役割を果たす。
本稿は,5万PyPIの著者とメンテナに送付された2つの対象調査を組み合わせた大規模実証研究である。
我々は,大規模言語モデル(LLM)に基づくトピックモデリングを用いて1,400以上の応答を分析し,リポジトリと寄付プラットフォームのリンクに関連する重要なモチベーションと障壁を明らかにする。
論文 参考訳(メタデータ) (2026-01-21T16:13:57Z) - REFINE: Enhancing Program Repair Agents through Context-Aware Patch Refinement [12.995571513415905]
大規模言語モデル(LLM)は、最近、自動プログラム修復(APR)に強い可能性を示している。
LLMは、コードコンテキストの限定的な理解と不完全なテストスイートへの過度な信頼のために、正しい修正を作成するのに苦労することが多い。
本稿では,ドラフトパッチを正しいものに体系的に変換する新しいパッチリファインメントフレームワークRefineを提案する。
論文 参考訳(メタデータ) (2025-10-04T00:34:32Z) - What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - May the Feedback Be with You! Unlocking the Power of Feedback-Driven Deep Learning Framework Fuzzing via LLMs [20.03968975178177]
ファズテスト(ファズテスト、fuzzing)は、ディープラーニング(DL)フレームワークのバグを見つけるための、シンプルで効果的な方法である。
本稿では,LLM(Large Language Model)とLLM(Generation LLM)という2つの大言語モデル(LLM)からなるフィードバック情報を効果的に活用するFUELを提案する。
FUELはPyTorchのラインコードカバレッジを改善し、最先端のベースラインよりも9.15%、14.70%向上できることを示す。
論文 参考訳(メタデータ) (2025-06-21T08:51:53Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。
命令ベースのデータセットの微調整により、パフォーマンスが10~20ポイント向上する。
論文 参考訳(メタデータ) (2025-04-15T10:07:33Z) - A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback [7.742213291781287]
提案するVRpilotは,推論とパッチ検証フィードバックに基づく脆弱性修復手法である。
以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。