論文の概要: Deployment-complete benchmarking
- arxiv url: http://arxiv.org/abs/2605.25997v1
- Date: Mon, 25 May 2026 16:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.460461
- Title: Deployment-complete benchmarking
- Title(参考訳): デプロイ完全ベンチマーク
- Authors: El Mustapha Mansouri, Keigo Arai,
- Abstract要約: ベンチマークエビデンスがデプロイメントアクションを決定するかどうか、デプロイ完全ベンチマークテスト。
ベンチマークは、各エビデンスファイバー上でアクションが定数であるときのクレームに対して完了する。
混合繊維は配置情報の欠如を露呈し、完成曲線はあいまいさを解決するのに必要な証拠を定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks increasingly guide deployment, procurement and scientific screening, yet a score supports only the response it records, not necessarily the deployment action. We introduce deployment-complete benchmarking, which tests whether benchmark evidence determines a deployment action. A benchmark is complete for a claim exactly when the action is constant on each evidence fiber; mixed fibers expose missing deployment information, and completion curves quantify the evidence required to resolve ambiguity. In controlled response spaces, benchmark-channel conformal coverage of 94.98% transferred poorly to an unmeasured deployment channel (10.07%), whereas response-rank intervals achieved 94.91% coverage; even zero benchmark error certified only 45.4% of candidates at the largest residual size. Public audits revealed incompleteness, including 97.9% mixed Tox21 fibers and zero median certifiable fraction in main Matbench and JARVIS audits. In held-out replays, certify-then-acquire reduced false decisions from 1.19% to 0.027% in Tox21 and from 20.3% to 0.128% in JARVIS, while changing model choice and identifying deployment-relevant probes. Deployment-ready benchmarks should report evidence, supported actions, ambiguity and completion cost rather than scores alone.
- Abstract(参考訳): ベンチマークは、デプロイ、調達、科学的なスクリーニングをガイドする一方で、スコアは、それが記録するレスポンスのみをサポートし、必ずしもデプロイメントアクションをサポートしない。
これは、ベンチマークのエビデンスがデプロイメントアクションを決定するかどうかをテストする。
ベンチマークは、各エビデンスファイバに作用が一定であるときのクレームに対して完了し、混合ファイバは不足した展開情報を露出し、完了曲線はあいまいさを解決するのに必要なエビデンスを定量化する。
制御された応答空間では、94.98%のベンチマークチャネルコンフォメーションカバレッジは未測定のデプロイメントチャネル(10.07%)に低かったが、レスポンスランク間隔は94.91%のカバレッジを達成した。
公開監査では97.9%の混合Tox21繊維と、メインのMatbenchとJARVIS監査の中央値認定率のゼロを含む不完全性が明らかになった。
保留中のリプレイでは、認証取得により、偽判定はTox21では1.19%から0.027%、JARVISでは20.3%から0.128%に減少し、モデル選択を変更し、デプロイ関連プローブを識別した。
デプロイ可能なベンチマークでは、スコアのみではなく、エビデンス、サポートされたアクション、曖昧さ、完了コストを報告する必要がある。
関連論文リスト
- Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack [51.54835866517547]
BenchJackは、コーディングエージェントがベンチマークを監査し、報酬をハックする可能性のあるエクスプロイトを識別するシステムである。
BenchJackを、ソフトウェアエンジニアリング、Webナビゲーション、デスクトップコンピューティング、端末操作にまたがる10の人気のあるエージェントベンチマークに適用する。
BenchJackは、単一のタスクを解決することなく、ほとんどのベンチマークでほぼ完璧なスコアを達成する報奨ハックのエクスプロイトを合成する。
論文 参考訳(メタデータ) (2026-05-12T19:22:45Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents [0.0]
NabaOSは対話型エージェントのための軽量な検証フレームワークである。
ソースによってAI応答内のすべてのクレームを分類する。
製造されたツールの実行の94.2%、誤り回数の87.6%、虚偽の欠席債権の78.4%を検知する。
論文 参考訳(メタデータ) (2026-03-09T20:45:41Z) - DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality [49.62610727661819]
既存のファクトチェッカーは主に汎用ドメイン、ファクトイドスタイルの原子クレーム用に設計されている。
本稿では,ベンチマークラベルと有理値が明示的に変更可能なAudit-then-Score (AtS)を提案する。
我々は、AtSを、監査可能な有理量を持つDRR事実性ベンチマークであるDeepFact-Benchとしてインスタンス化する。
論文 参考訳(メタデータ) (2026-03-06T05:05:57Z) - When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning [16.505918019260964]
信頼性と信頼性の低い予測を混合することにより,最先端モデル(Qwen2.5-Math-7B)の精度が61%向上することが実証された。
正しい予測の18.4%は安定で忠実な推論を採用しており、81.6%は計算的に一貫性のない経路を通して現れる。
論文 参考訳(メタデータ) (2026-03-03T19:43:36Z) - Historian: Reducing Manual Validation in APR Benchmarking via Evidence-Based Assessment [0.19853810231896352]
我々は,大規模言語モデルを利用して,歴史的に検証されたパッチの知識ベースに対して,複数参照比較を行うフレームワークであるHistorianを提案する。
アウト・ワン・ツールアウトの評価では、ヒストリアンは95.0%のカバレッジを88.4%の精度で達成し、手作業による検証を5%に削減した。
論文 参考訳(メタデータ) (2026-02-28T13:41:29Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。