Fugu-MT 論文翻訳(概要): From Reviewers' Lens: Understanding Bug Bounty Report Invalid Reasons with LLMs

論文の概要: From Reviewers' Lens: Understanding Bug Bounty Report Invalid Reasons with LLMs

arxiv url: http://arxiv.org/abs/2511.18608v1
Date: Sun, 23 Nov 2025 20:27:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:24.924348
Title: From Reviewers' Lens: Understanding Bug Bounty Report Invalid Reasons with LLMs
Title（参考訳）: レビュー者のレンズから:LLMによるバグ報奨金の報告
Authors: Jiangrui Zheng, Yingming Zhou, Ali Abdullah Ahmad, Hanqing Yao, Xueqing Liu,
Abstract要約: 私たちは、9,942件のバグ報奨金を公表したデータセットを集めました。我々は、最先端の大規模言語モデルが無効なレポートを識別できるかどうかを評価する。我々は情報開示の脆弱性の理由の分類を作成し、それを検索強化された生成フレームワークに組み込む。
参考スコア（独自算出の注目度）: 1.8652189113472575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bug bounty platforms (e.g., HackerOne, BugCrowd) leverage crowd-sourced vulnerability discovery to improve continuous coverage, reduce the cost of discovery, and serve as an integral complement to internal red teams. With the rise of AI-generated bug reports, little work exists to help bug hunters understand why these reports are labeled as invalid. To improve report quality and reduce reviewers' burden, it is critical to predict invalid reports and interpret invalid reasons. In this work, we conduct an empirical study with the purpose of helping bug hunters understand the validity of reports. We collect a dataset of 9,942 disclosed bug bounty reports, including 1,400 invalid reports, and evaluate whether state-of-the-art large language models can identify invalid reports. While models such as GPT-5, DeepSeek, and a fine-tuned RoBERTa achieve strong overall accuracy, they consistently struggle to detect invalid cases, showing a tendency to over-accept reports. To improve invalidity detection, we build a taxonomy of rejection reasons for Information Disclosure vulnerabilities and incorporate it into a retrieval-augmented generation (RAG) framework. This approach substantially improves classification consistency and reduces bias. We also examine whether reviewer decisions may be influenced by factors beyond the content of the report. Our analysis shows that reporters with higher reputations tend to receive more favorable outcomes in borderline cases, suggesting that perceived expertise can influence review judgments. Overall, our findings highlight the challenges of invalid report identification and show that combining LLMs with structured reviewer knowledge can support more transparent and consistent vulnerability report review.
Abstract（参考訳）: バグ報奨金プラットフォーム(例:HackerOne、BugCrowd)は、クラウドソースによる脆弱性発見を活用して、継続的カバレッジを改善し、発見コストを削減し、内部のレッドチームにとって不可欠な補完となる。 AIが生成するバグレポートの増加に伴い、バグハンターがこれらのレポートが無効であるとラベル付けされている理由を理解するための作業はほとんどない。報告品質の向上とレビュアーの負担軽減のためには, 不正な報告を予測し, 無効な理由を解釈することが重要である。本研究は,バグハンターが報告の有効性を理解するための実証的研究である。我々は1,400件の不正報告を含む9,942件のバグ報奨金レポートのデータセットを収集し、最先端の大規模言語モデルが無効なレポートを識別できるかどうかを評価する。 GPT-5やDeepSeek、微調整のRoBERTaといったモデルでは、全体的な精度は高いが、不正なケースの検出には一貫して苦労しており、報告を過度に受け入れる傾向がある。不正検出を改善するため,情報開示の脆弱性に対する拒絶理由の分類を作成し,それらを検索強化世代(RAG)フレームワークに組み込む。このアプローチは、分類の一貫性を大幅に改善し、バイアスを減らす。また, 審査員の判断が, 報告書の内容以外の要因に影響されるかどうかについても検討する。分析の結果,評価の高いレポーターは境界事例において好意的な結果を受けやすい傾向にあり,専門家の認識が評価判断に影響を及ぼす可能性が示唆された。全体として,無効なレポート識別の課題を強調し,構造化されたレビュアー知識とLCMを組み合わせることで,より透明で一貫した脆弱性レポートのレビューを支援することを示す。

関連論文リスト

Community Notes are Vulnerable to Rater Bias and Manipulation [75.34858521118305]
本研究では,現実的なレーダやノートの振る舞いをモデル化したシミュレーションデータを用いて,コミュニティノートアルゴリズムの評価を行う。このアルゴリズムは、真に有用な音符のかなりの部分を抑制することができ、レーダバイアスに非常に敏感である。
論文参考訳（メタデータ） (2025-11-04T14:39:34Z)
COMMUNITYNOTES: A Dataset for Exploring the Helpfulness of Fact-Checking Explanations [89.37527535663433]
ユーザが提供するノートと有用なラベルを用いた104kポストの大規模データセットを提示する。本稿では,自動的なプロンプト最適化による理由定義の自動生成と改善を行うフレームワークを提案する。実験の結果,最適化された定義は有用性と推論の両方を改善できることがわかった。
論文参考訳（メタデータ） (2025-10-28T05:28:47Z)
Crash Report Enhancement with Large Language Models: An Empirical Study [21.842377922082104]
大規模言語モデルでは, 故障箇所, 根本原因の説明, 修復提案を追加することで, 事故報告を向上できるかどうかを検討する。実世界の492件の事故報告のデータセットでは、LSMが実施した報告はTop-1問題局所化の精度を10.6%から40.2-43.1%に改善した。手動による評価と LLM-as-a-judge の評価は,Agenic-LLM がより強力な根本原因の説明と,より実用的な修復指導を提供することを示している。
論文参考訳（メタデータ） (2025-09-16T21:02:57Z)
Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-29T08:48:00Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
The Impact Of Bug Localization Based on Crash Report Mining: A Developers' Perspective [7.952391285456257]
事故報告をグループ化し,バグコードを見つけるためのアプローチを18ヶ月にわたって毎週実施した経験を報告する。この調査で調査されたアプローチは、バギーファイルの大部分を正しく示唆していた。
論文参考訳（メタデータ） (2024-03-16T01:23:01Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)
Recommending Bug Assignment Approaches for Individual Bug Reports: An Empirical Investigation [8.186068333538893]
バグレポートに対処できる潜在的な開発者を自動的に推薦する複数のアプローチが提案されている。これらのアプローチは一般的に、あらゆるソフトウェアプロジェクトに提出されたバグレポートに対して機能するように設計されています。 2つのオープンソースシステムから2,249件のバグレポートに適用した3つのバグ割り当て手法を用いて,この推測を検証する実験的検討を行った。
論文参考訳（メタデータ） (2023-05-29T23:02:56Z)
Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。本論文では,NLP手法の組み合わせによる解を提案する。カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文参考訳（メタデータ） (2022-12-13T02:32:42Z)
Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文参考訳（メタデータ） (2021-12-19T11:30:29Z)
ScoreGAN: A Fraud Review Detector based on Multi Task Learning of Regulated GAN with Data Augmentation [50.779498955162644]
生成・検出プロセスにおけるレビューテキストとレビューレーティングスコアの両方を利用した不正レビュー検出のためのScoreGANを提案する。その結果,提案フレームワークは,既存の最先端フレームワークであるFakeGANをAPの7%,YelpとTripAdvisorのデータセットで5%上回る性能を示した。
論文参考訳（メタデータ） (2020-06-11T16:15:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。