論文の概要: Mitigating False Positives in Static Memory Safety Analysis of Rust Programs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.04000v1
- Date: Tue, 05 May 2026 17:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.059918
- Title: Mitigating False Positives in Static Memory Safety Analysis of Rust Programs via Reinforcement Learning
- Title(参考訳): 強化学習によるラストプログラムの静的メモリ安全性解析における偽陽性の軽減
- Authors: P Akilesh, Leuson Da Silva, Foutse Khomh, Sridhar Chimalakonda,
- Abstract要約: Rustプログラムのメモリ安全性を確保するには静的解析ツールが不可欠だ。
RudraやMirCheckerといった既存のツールは、偽陽性率が高い。
本稿では,突発的な警告を自動的に分類・抑制するための新しい強化学習(RL)アプローチを提案する。
- 参考スコア(独自算出の注目度): 9.7161418437872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static analysis tools are essential for ensuring memory safety in Rust programs, particularly as Rust gains adoption in safety-critical domains. However, existing tools such as Rudra and MirChecker suffer from high false positive rates, which diminish developer trust, increase manual review effort, and may obscure genuine vulnerabilities. This paper presents a novel reinforcement learning (RL)-based approach for automatically classifying and suppressing spurious warnings in static memory safety analysis for Rust. To achieve this, we design an RL agent that learns a warning suppression policy by extracting contextual features from Rust's Mid-level Intermediate Representation (MIR) and optimizing its decisions through interaction with static analysis outputs. To improve decision quality, we integrate dynamic validation via cargo-fuzz as an auxiliary feedback mechanism, allowing the agent to selectively validate suspicious warnings through targeted fuzz testing. Our evaluation shows that the proposed approach significantly outperforms state-of-the-art LLM-based baselines, achieving 65.2% accuracy and an F1 score of 0.659, an improvement of 17.1% over the best LLM baseline. With a recall of 74.6%, our method successfully identifies nearly three-quarters of true bugs while substantially reducing false positives, improving precision from 25.6% in raw Rudra output to 59.0%. Incorporating dynamic fuzzing further boosts performance, yielding additional improvements of 10.7 percentage points in accuracy and 8.6 percentage points in F1 score over the RL-only variant. Overall, our work demonstrates that combining reinforcement learning with hybrid static-dynamic analysis can substantially reduce false positives and improve the practical usability of memory safety verification tools for Rust.
- Abstract(参考訳): Rustプログラムでは、特に安全クリティカルなドメインでRustが採用されるため、静的解析ツールがメモリ安全性の確保に不可欠である。
しかし、RudraやMirCheckerといった既存のツールは、高い偽陽性率に悩まされており、開発者の信頼が低下し、手作業によるレビュー作業が増加し、真の脆弱性が曖昧になる可能性がある。
本稿では,Rustの静的メモリ安全性解析における急激な警告を自動的に分類し,抑制するための,新しい強化学習(RL)に基づくアプローチを提案する。
そこで我々は,Rustの中レベル中間表現(MIR)からコンテキスト特徴を抽出し,静的解析出力との相互作用を通じてその決定を最適化することにより,警告抑制ポリシーを学習するRLエージェントを設計する。
判定精度を向上させるため,カーゴファジによる動的検証を補助的フィードバック機構として統合し,ターゲットファジテストによる疑わしい警告を選択的に検証する。
提案手法の精度は65.2%, F1スコアは0.659, 最高のLCMベースラインよりも17.1%向上した。
74.6%のリコールにより,本手法は真バグの4分の3近くを同定し,偽陽性を著しく低減し,生のRudra出力の25.6%から59.0%に精度を向上した。
動的ファジィングを組み込むことによりパフォーマンスがさらに向上し、RLのみの変種よりも精度が10.7ポイント、F1スコアが8.6ポイント向上した。
我々の研究は、強化学習とハイブリッド静的力学解析を組み合わせることで、偽陽性を大幅に低減し、Rustのメモリ安全性検証ツールの実用性を向上させることを実証している。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - Think Twice, Generate Once: Safeguarding by Progressive Self-Reflection [18.467741067831877]
本稿では,大規模言語モデルを自己監視に活用し,その出力を動的に補正する新しい推論時間手法であるプログレッシブ・セルフリフレクションを紹介する。
Llama-3.1-8B-Instructに提案手法を適用した結果,攻撃成功率は77.5%から5.9%に低下した。
提案手法はテスト時間スケーリングの手法として機能し,追加の自己回帰ラウンドによって推論オーバーヘッドのコストで安全性が向上する。
論文 参考訳(メタデータ) (2025-09-29T12:54:28Z) - The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。
LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。
LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
論文 参考訳(メタデータ) (2025-04-16T02:17:06Z) - Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection [9.269926508651091]
大規模言語モデル(LLM)は、脆弱性検出などの安全クリティカルなコードタスクに制限があることを示している。
本稿では,脆弱性の自然言語命令を,対照的な連鎖推論と統合する戦略を提案する。
本研究は,静的アナライザの厳格な手作りルールに代えて,セキュリティ対応のプロンプト技術が有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T18:08:14Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。