論文の概要: Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery
- arxiv url: http://arxiv.org/abs/2604.19049v1
- Date: Tue, 21 Apr 2026 03:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.607365
- Title: Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery
- Title(参考訳): Refute-or-Promote: 高精度LDM支援欠陥発見のための多エージェント評価手法
- Authors: Abhinav Agarwal,
- Abstract要約: Refute-or-Promote(Refute-or-Promote)は、候補生成のためのSCH(Stratified Context Hunting)、逆殺命令、コンテキスト、Cross-Model Critic(CMC)を組み合わせた推論時信頼性パターンである。
提案するRefute-or-Promoteは、SCH(Stratified Context Hunting)を併用した推論時信頼性パターンで、候補生成、逆死命令、コンテキスト、およびクロスモデル批判(CMC)を行う。
提案するRefute-or-Promoteは、SCH(Stratified Context Hunting)を併用した推論時信頼性パターンで、候補生成、逆死命令、コンテキスト、およびクロスモデル批判(CMC)を行う。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-assisted defect discovery has a precision crisis: plausible-but-wrong reports overwhelm maintainers and degrade credibility for real findings. We present Refute-or-Promote, an inference-time reliability pattern combining Stratified Context Hunting (SCH) for candidate generation, adversarial kill mandates, context asymmetry, and a Cross-Model Critic (CMC). Adversarial agents attempt to disprove candidates at each promotion gate; cold-start reviewers are intended to reduce anchoring cascades; cross-family review can catch correlated blind spots that same-family review misses. Over a 31-day campaign across 7 targets (security libraries, the ISO C++ standard, major compilers), the pipeline killed roughly 79% of 171 candidates before advancing to disclosure (retrospective aggregate); on a consolidated-protocol subset (lcms2, wolfSSL; n=30), the prospective kill rate was 83%. Outcomes: 4 CVEs (3 public, 1 embargoed); LWG 4549 accepted to the C++ working paper; 5 merged C++ editorial PRs; 3 compiler conformance bugs; 8 merged security-related fixes without CVE; an RFC 9000 errata filed under committee review; and 1+ FIPS 140-3 normative compliance issues under coordinated disclosure -- all evaluated by external acceptance, not benchmarks. The most instructive failure: ten dedicated reviewers unanimously endorsed a non-existent Bleichenbacher padding oracle in OpenSSL's CMS module; it was killed only by a single empirical test, motivating the mandatory empirical gate. No vulnerability was discovered autonomously; the contribution is external structure that filters LLM agents' persistent false positives. As a preliminary transfer test beyond defect discovery, a simplified cross-family critique variant also solved five previously unsolved SymPy instances on SWE-bench Verified and one SWE-rebench hard task.
- Abstract(参考訳): LLMが支援する欠陥発見には、正確さの危機がある: もっともらしい報告は、メンテナを圧倒し、実際の発見に対する信頼性を低下させる。
本稿では,SCH(Stratified Context Hunting)を併用した推論時信頼性パターンであるRefute-or-Promoteを提案する。
対抗エージェントは、各プロモーションゲートの候補者を挑発しようと試み、コールドスタートのレビュアーは、アンカーのカスケードを減らすことを目的としており、クロスファミリーのレビューは、同じ家族のレビューが見逃すような相関した盲点をキャッチできる。
7つのターゲット(セキュリティライブラリ、ISO C++標準、メジャーコンパイラ)にわたる31日間のキャンペーンで、パイプラインは171人の候補者の約79%を殺害し、公開(ふりかえりの集約)に進んだ。
成果:4つのCVE (3 public, 1 embargoed)、LWG 4549がC++ワーキングペーパーに受け入れられ、5つの統合C++編集PR、3つのコンパイラ準拠バグ、8つの統合CVEなしでのセキュリティ関連の修正、RFC 9000 errataが委員会で提出され、調整された開示の下で1+ FIPS 140-3の規範的なコンプライアンス問題 -- これらはすべてベンチマークではなく外部の受け入れによって評価されている。
10人の専用レビュアーが、OpenSSLのCMSモジュールに存在しないBleichenbacherパディングオラクルを全会一致で支持した。
LLMエージェントの持続的な偽陽性をフィルタリングする外部構造である。
欠陥発見以外の予備的な転送テストとして、SWE-bench VerifiedとSWE-rebenchハードタスクの5つの未解決のSymPyインスタンスを単純化した。
関連論文リスト
- Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling [0.0]
言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
生成と受け入れを分離するプロトコルであるCLBCを提案する。
このプロトコルは、遅延リークと明示的な残留チャネルの観点から、転写リークの上限をいかに高めるかを示す。
論文 参考訳(メタデータ) (2026-02-27T23:42:37Z) - RULERS: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation [15.787947727055611]
本稿では,自然言語ルーブを実行可能な仕様に変換するコンパイラ・エグゼクタフレームワークであるRULERSを紹介する。
RULERSは、基準をバージョニングされた不変バンドルにコンパイルし、決定論的証拠検証による構造化復号を強制し、軽量なワッサーシュタインベースのポストホックキャリブレーションを適用する。
論文 参考訳(メタデータ) (2026-01-13T15:31:42Z) - DisastQA: A Comprehensive Benchmark for Evaluating Question Answering in Disaster Management [27.25517951457221]
我々は8つの災害タイプにまたがる3000の厳格に検証された質問(2000の多重選択と1,000のオープンエンド)の大規模ベンチマークであるDisastQAを紹介した。
オープンエンドQAでは,冗長性よりも事実的完全性を重視した,人間の検証されたキーポイントに基づく評価プロトコルを提案する。
20モデルを用いた実験では、MMLU-Proのような汎用のリーダーボードとはかなりの相違が見られる。
論文 参考訳(メタデータ) (2026-01-07T07:46:42Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes [79.36545159724703]
隠れ状態や注目パターンの軽量プローブを学習するためのLRP(Latent Representation Probing)を提案する。
LRPは、ベストベースラインよりも吸音精度を7.6%向上させる。
これにより、デプロイメント対応AIシステムを構築するための原則化されたフレームワークが確立される。
論文 参考訳(メタデータ) (2025-11-25T00:24:42Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。