論文の概要: DRS-OSS: LLM-Driven Diff Risk Scoring Tool for PR Risk Prediction
- arxiv url: http://arxiv.org/abs/2511.21964v1
- Date: Wed, 26 Nov 2025 22:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.321769
- Title: DRS-OSS: LLM-Driven Diff Risk Scoring Tool for PR Risk Prediction
- Title(参考訳): DRS-OSS: PRリスク予測のためのLCM駆動型ディフリスクスコアリングツール
- Authors: Ali Sayedsalehi, Peter C. Rigby, Audris Mockus,
- Abstract要約: Diff Risk Scoring (DRS) は、差分が欠陥をもたらす可能性を推定し、レビューの優先順位付け、テスト計画、CI/CDゲーティングを改善する。
DRS-OSSは、パブリックAPI、Web UI、GitHubプラグインを備えたオープンソースのDSSシステムである。
- 参考スコア(独自算出の注目度): 3.17083738531489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large-scale open-source projects, hundreds of pull requests land daily, each a potential source of regressions. Diff Risk Scoring (DRS) estimates the likelihood that a diff will introduce a defect, enabling better review prioritization, test planning, and CI/CD gating. We present DRS-OSS, an open-source DRS system equipped with a public API, web UI, and GitHub plugin. DRS-OSS uses a fine-tuned Llama 3.1 8B sequence classifier trained on the ApacheJIT dataset, consuming long-context representations that combine commit messages, structured diffs, and change metrics. Through parameter-efficient adaptation, 4-bit QLoRA, and DeepSpeed ZeRO-3 CPU offloading, we train 22k-token contexts on a single 20 GB GPU. On the ApacheJIT benchmark, DRS-OSS achieves state-of-the-art performance (F1 = 0.64, ROC-AUC = 0.89). Simulations show that gating only the riskiest 30% of commits can prevent up to 86.4% of defect-inducing changes. The system integrates with developer workflows through an API gateway, a React dashboard, and a GitHub App that posts risk labels on pull requests. We release the full replication package, fine-tuning scripts, deployment artifacts, code, demo video, and public website.
- Abstract(参考訳): 大規模なオープンソースプロジェクトでは、数百のプルリクエストが毎日到着し、それぞれが潜在的な回帰のソースになります。
Diff Risk Scoring (DRS) は、差分が欠陥をもたらす可能性を推定し、レビューの優先順位付け、テスト計画、CI/CDゲーティングを改善する。
DRS-OSSは、公開API、Web UI、GitHubプラグインを備えたオープンソースのDSSシステムである。
DRS-OSSは、ApacheJITデータセットでトレーニングされた微調整されたLlama 3.1 8Bシーケンス分類器を使用し、コミットメッセージ、構造化差分、変更メトリクスを組み合わせた長いコンテキスト表現を消費する。
パラメータ効率適応、4ビットQLoRA、DeepSpeed ZeRO-3 CPUオフロードにより、1つの20GB GPU上で22k-tokenコンテキストをトレーニングする。
ApacheJITベンチマークでは、DSS-OSSは最先端のパフォーマンスを達成する(F1 = 0.64, ROC-AUC = 0.89)。
シミュレーションでは、最もリスクの高いコミットの30%しかゲーティングできないため、最大86.4%の欠陥発生による変更を防止できる。
このシステムは、APIゲートウェイ、Reactダッシュボード、プルリクエストにリスクラベルをポストするGitHub Appを通じて、開発者ワークフローと統合される。
完全なレプリケーションパッケージ、微調整スクリプト、デプロイメントアーティファクト、コード、デモビデオ、パブリックWebサイトをリリースしています。
関連論文リスト
- Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - ImportSnare: Directed "Code Manual" Hijacking in Retrieval-Augmented Code Generation [8.176905459241047]
我々はRetrieval-Augmented Code Generationにおける攻撃面の探索の先駆者である。
隠れた悪意のある依存関係を含む有毒なドキュメントがRACGを覆す方法を示す。
本稿では,2つのシナジスティック戦略を用いた新たな攻撃フレームワークであるImportSnareを提案する。
論文 参考訳(メタデータ) (2025-09-09T17:21:20Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - ModSec-Learn: Boosting ModSecurity with Machine Learning [14.392409275321528]
ModSecurityは、標準のオープンソースWebアプリケーションファイアウォール(WAF)として広く認識されている。
コアルールセット(CRS)ルールを入力として使用する機械学習モデルを提案する。
ModSec-Learnは、予測にそれぞれのCRSルールのコントリビューションをチューニングできるため、Webアプリケーションに対する重大度レベルを保護できる。
論文 参考訳(メタデータ) (2024-06-19T13:32:47Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - Sparse-RS: a versatile framework for query-efficient sparse black-box
adversarial attacks [64.03012884804458]
ブラックボックス設定におけるスパース攻撃および未標的攻撃に対するランダム探索に基づく多目的フレームワークであるSparse-RSを提案する。
Sparse-RSは代替モデルに依存しておらず、複数のスパース攻撃モデルに対して最先端の成功率とクエリ効率を達成する。
論文 参考訳(メタデータ) (2020-06-23T08:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。