論文の概要: Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning
- arxiv url: http://arxiv.org/abs/2602.16984v1
- Date: Thu, 19 Feb 2026 01:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.537759
- Title: Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning
- Title(参考訳): ブラックボックス安全性評価の基本的限界:潜時条件による情報理論と計算障壁
- Authors: Vishal Srivastava,
- Abstract要約: AIシステムのブラックボックス安全性評価では、テストディストリビューションのモデル動作がデプロイメントのパフォーマンスを確実に予測していると仮定する。
我々は、この仮定を、潜伏した文脈条件のポリシーによって定式化し、挑戦する。
ブラックボックス評価者が配置リスクを確実に見積もることができないという基本的な制限を確立します。
- 参考スコア(独自算出の注目度): 1.9290392443571385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Black-box safety evaluation of AI systems assumes model behavior on test distributions reliably predicts deployment performance. We formalize and challenge this assumption through latent context-conditioned policies -- models whose outputs depend on unobserved internal variables that are rare under evaluation but prevalent under deployment. We establish fundamental limits showing that no black-box evaluator can reliably estimate deployment risk for such models. (1) Passive evaluation: For evaluators sampling i.i.d. from D_eval, we prove minimax lower bounds via Le Cam's method: any estimator incurs expected absolute error >= (5/24)*delta*L approximately 0.208*delta*L, where delta is trigger probability under deployment and L is the loss gap. (2) Adaptive evaluation: Using a hash-based trigger construction and Yao's minimax principle, worst-case error remains >= delta*L/16 even for fully adaptive querying when D_dep is supported over a sufficiently large domain; detection requires Theta(1/epsilon) queries. (3) Computational separation: Under trapdoor one-way function assumptions, deployment environments possessing privileged information can activate unsafe behaviors that any polynomial-time evaluator without the trapdoor cannot distinguish. For white-box probing, estimating deployment risk to accuracy epsilon_R requires O(1/(gamma^2 * epsilon_R^2)) samples, where gamma = alpha_0 + alpha_1 - 1 measures probe quality, and we provide explicit bias correction under probe error. Our results quantify when black-box testing is statistically underdetermined and provide explicit criteria for when additional safeguards -- architectural constraints, training-time guarantees, interpretability, and deployment monitoring -- are mathematically necessary for worst-case safety assurance.
- Abstract(参考訳): AIシステムのブラックボックス安全性評価では、テストディストリビューションのモデル動作がデプロイメントのパフォーマンスを確実に予測していると仮定する。
私たちは、この仮定を、遅延したコンテキスト条件のポリシーによって形式化し、挑戦します -- アウトプットが未観測内部変数に依存しているモデルで、評価下では珍しいが、デプロイ時に普及しているのです。
我々は,ブラックボックス評価者がそのようなモデルの展開リスクを確実に見積もることができないという基本的な限界を確立する。
1) パッシブ評価: D_eval から標本化する評価器では,任意の推定器が期待される絶対誤差 >= (5/24)*delta*L の約 0.208*delta*L を推定する。
2) 適応的評価: ハッシュベースのトリガ構造とYaoのミニマックス原理を用いることで,D_depが十分に大きなドメイン上でサポートされている場合であっても,最悪のケースエラーは >= delta*L/16 であり,検出には Theta(1/epsilon) クエリが必要である。
(3) 計算的分離: トラップドアの一方通行機能仮定の下では、特権情報を有する配置環境は、トラップドアのない多項式時間評価器では区別できない安全でない動作を活性化することができる。
ホワイトボックス・プロブリングでは,Epsilon_Rの精度に対する展開リスクを推定するにはO(1/(gamma^2 * epsilon_R^2))サンプルが必要である。
我々の結果は,ブラックボックステストが統計的に過小評価され,アーキテクチャ上の制約,トレーニング時間保証,解釈可能性,デプロイメント監視といった追加のセーフガードが,最悪のケースの安全性を保証するために数学的に必要である場合の明確な基準を提供する。
関連論文リスト
- Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Principled Input-Output-Conditioned Post-Hoc Uncertainty Estimation for Regression Networks [1.4671424999873808]
不確実性は安全性に敏感なアプリケーションでは重要であるが、予測性能に悪影響を及ぼすため、市販のニューラルネットワークから排除されることが多い。
本稿では,従来の入力と凍結モデルの両方に補助モデルを適用することにより,回帰タスクにおけるポストホック不確実性推定のための理論的基盤となるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:13:27Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Kernel Robust Hypothesis Testing [20.78285964841612]
本稿では,カーネル方式を用いて不確実性集合をデータ駆動方式で構築する。
目標は、不確実性集合上の最悪のケース分布の下でうまく機能するテストを設計することである。
Neyman-Pearsonの設定では、誤検知の最悪のケース確率を最小限に抑え、誤警報の最悪のケース確率を制約する。
論文 参考訳(メタデータ) (2022-03-23T23:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。