Fugu-MT 論文翻訳(概要): SPECA: Specification-to-Checklist Agentic Auditing for Multi-Implementation Systems -- A Case Study on Ethereum Clients

論文の概要: SPECA: Specification-to-Checklist Agentic Auditing for Multi-Implementation Systems -- A Case Study on Ethereum Clients

arxiv url: http://arxiv.org/abs/2602.07513v1
Date: Sat, 07 Feb 2026 12:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.660137
Title: SPECA: Specification-to-Checklist Agentic Auditing for Multi-Implementation Systems -- A Case Study on Ethereum Clients
Title（参考訳）: SPECA: マルチ実装システムのための仕様からチェックリストへのエージェント監査 -- Ethereumクライアントのケーススタディ
Authors: Masato Kamba, Akiyoshi Sannai,
Abstract要約: SPECAは、標準要件をチェックリストに変換する仕様からChecklistフレームワークである。 SPECAは,11社を対象とし,フサカアップグレードのセキュリティ監査コンテストの会場内でインスタンス化を行う。我々の改善されたエージェントは、競争監査の基礎的真実に対して評価され、高影響の脆弱性について27.3%の厳格なリコールを達成した。
参考スコア（独自算出の注目度）: 1.711666249985278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-implementation systems are increasingly audited against natural-language specifications. Differential testing scales well when implementations disagree, but it provides little signal when all implementations converge on the same incorrect interpretation of an ambiguous requirement. We present SPECA, a Specification-to-Checklist Auditing framework that turns normative requirements into checklists, maps them to implementation locations, and supports cross-implementation reuse. We instantiate SPECA in an in-the-wild security audit contest for the Ethereum Fusaka upgrade, covering 11 production clients. Across 54 submissions, 17 were judged valid by the contest organizers. Cross-implementation checks account for 76.5 percent (13 of 17) of valid findings, suggesting that checklist-derived one-to-many reuse is a practical scaling mechanism in multi-implementation audits. To understand false positives, we manually coded the 37 invalid submissions and find that threat model misalignment explains 56.8 percent (21 of 37): reports that rely on assumptions about trust boundaries or scope that contradict the audit's rules. We detected no High or Medium findings in the V1 deployment; misses concentrated in specification details and implicit assumptions (57.1 percent), timing and concurrency issues (28.6 percent), and external library dependencies (14.3 percent). Our improved agent, evaluated against the ground truth of a competitive audit, achieved a strict recall of 27.3 percent on high-impact vulnerabilities, placing it in the top 4 percent of human auditors and outperforming 49 of 51 contestants on critical issues. These results, though from a single deployment, suggest that early, explicit threat modeling is essential for reducing false positives and focusing agentic auditing effort. The agent-driven process enables expert validation and submission in about 40 minutes on average.
Abstract（参考訳）: マルチ実装システムは、自然言語仕様に対してますます監査される。実装が一致しない場合、差分テストはうまくスケールするが、すべての実装が不明瞭な要件の同じ誤った解釈に収束すると、信号はほとんど得られない。 SPECA(Specification-to-Checklist Auditing framework)は、標準要件をチェックリストに変換し、それらを実装箇所にマップし、クロス実装の再利用をサポートする。 Ethereum Fusakaアップグレードのセキュリティ監査コンテストでSPECAをインスタンス化し、11のプロダクションクライアントをカバーします。 54件中17件が主催者によって有効と判断された。クロス実装チェックは、有効な結果の76.5%(17点中13点)を占めており、チェックリストから得られる1対多の再利用が、マルチ実装監査における実践的なスケーリングメカニズムであることを示唆している。偽陽性を理解するために、我々は37件の無効な申請を手作業でコーディングし、脅威モデルの不一致は56.8%(37件中21件)と説明している。 V1デプロイメントでは、仕様の詳細と暗黙の仮定(57.1%)、タイミングと並行性の問題(28.6%)、外部ライブラリ依存関係(14.3%)が不足している。我々の改善されたエージェントは、競争監査の根拠的真実に対して評価され、高い影響の脆弱性について27.3%の厳格なリコールを達成し、人間監査人の上位4%に入り、51人の参加者のうち49人を上回った。これらの結果は、単一デプロイメントによるものだが、偽陽性の低減とエージェント監査の集中に、早期で明示的な脅威モデリングが不可欠であることを示唆している。エージェント駆動のプロセスは、専門家による検証と提出を平均40分で行える。

関連論文リスト

When Is Enough Not Enough? Illusory Completion in Search Agents [56.98225130959051]
検索エージェントが、複数の条件をトラッキングし、検証し、維持することで、すべての要件に対して確実に理性性を持たせるかどうかを調査する。エージェントは、未解決の制約や違反の制約にもかかわらずタスクが完了したと信じており、未検証の回答につながる。我々は、実行中の明示的な制約状態追跡が、推論時トラッカーであるLiveLedgerを介してこれらの障害を緩和するかどうかを検討する。
論文参考訳（メタデータ） (2026-02-07T13:50:38Z)
Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks [10.977990951788422]
DrawingBenchはエージェントLLMの信頼性を評価するための検証フレームワークである。我々のフレームワークは、20のカテゴリに250の多様なプロンプトと4つの難易度から構成されている。我々は1000回の試験で4つの最先端LCMを評価した。
論文参考訳（メタデータ） (2025-12-01T01:18:21Z)
Multi-Agent Legal Verifier Systems for Data Transfer Planning [1.286589966480548]
AIによるデータ転送計画における法的コンプライアンスは、厳格なプライバシー規制の下でますます重要になっている。本稿では,法令解釈,ビジネスコンテキスト評価,リスク評価のために,コンプライアンスチェックを専門エージェントに分解するマルチエージェント法定検証手法を提案する。
論文参考訳（メタデータ） (2025-11-14T03:32:08Z)
SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study [0.0]
SLEANは、.txtテンプレートを使用してLLM間の単純なプロンプトブリッジとして機能し、デプロイに深い技術知識を必要としない。独立した分析、相互批判、仲裁によって形成される3フェーズプロトコルは、有害なAI生成コード提案をフィルタリングする。ファイル駆動でプロバイダに依存しないアーキテクチャは、特別なコーディング専門知識のないデプロイメントを可能にします。
論文参考訳（メタデータ） (2025-10-11T04:24:04Z)
FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。我々の枠組みは差別的な決定問題として不誠実検出を定式化している。 FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文参考訳（メタデータ） (2025-10-05T05:16:54Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams [2.897171041611256]
CMExamSetは,全国認定の4つのCM認定試験から689の質問を正解したベンチマークデータセットである。その結果、GPT-4o と Claude 3.7 は、平均精度が82%、Claude 3.7 が83%である。概念的誤解は最も一般的なものであり、拡張されたドメイン固有の推論モデルの必要性を暗示している。
論文参考訳（メタデータ） (2025-04-04T18:13:45Z)
Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing [1.4201040196058878]
大規模言語モデル(LLM)はタスクの自動化とさまざまな領域にわたるコンテンツ生成を変革した。本稿では,分散プロンプト処理と反復改良を組み合わせた新しいジェイルブレイク機構を導入し,安全性対策を回避した。 10のサイバーセキュリティカテゴリで500の悪意あるプロンプトでテストされたこのフレームワークは、悪意のあるコードを生成する上で73.2%の成功率(SR)を達成した。
論文参考訳（メタデータ） (2025-03-27T15:19:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。