論文の概要: Empirical Validation of the Classification-Verification Dichotomy for AI Safety Gates
- arxiv url: http://arxiv.org/abs/2604.00072v1
- Date: Tue, 31 Mar 2026 13:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.663971
- Title: Empirical Validation of the Classification-Verification Dichotomy for AI Safety Gates
- Title(参考訳): AI安全ゲートの分類検証二分法の実証検証
- Authors: Arsenios Scrivens,
- Abstract要約: オラクルベースの安全ゲートは、AIシステムが数百回以上のイテレーションを改善するため、信頼できる監視を維持することはできない。
自己改善自体の安全性ではなく、分類に特有であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can classifier-based safety gates maintain reliable oversight as AI systems improve over hundreds of iterations? We provide comprehensive empirical evidence that they cannot. On a self-improving neural controller (d=240), eighteen classifier configurations -- spanning MLPs, SVMs, random forests, k-NN, Bayesian classifiers, and deep networks -- all fail the dual conditions for safe self-improvement. Three safe RL baselines (CPO, Lyapunov, safety shielding) also fail. Results extend to MuJoCo benchmarks (Reacher-v4 d=496, Swimmer-v4 d=1408, HalfCheetah-v4 d=1824). At controlled distribution separations up to delta_s=2.0, all classifiers still fail -- including the NP-optimal test and MLPs with 100% training accuracy -- demonstrating structural impossibility. We then show the impossibility is specific to classification, not to safe self-improvement itself. A Lipschitz ball verifier achieves zero false accepts across dimensions d in {84, 240, 768, 2688, 5760, 9984, 17408} using provable analytical bounds (unconditional delta=0). Ball chaining enables unbounded parameter-space traversal: on MuJoCo Reacher-v4, 10 chains yield +4.31 reward improvement with delta=0; on Qwen2.5-7B-Instruct during LoRA fine-tuning, 42 chain transitions traverse 234x the single-ball radius with zero safety violations across 200 steps. A 50-prompt oracle confirms oracle-agnosticity. Compositional per-group verification enables radii up to 37x larger than full-network balls. At d<=17408, delta=0 is unconditional; at LLM scale, conditional on estimated Lipschitz constants.
- Abstract(参考訳): 分類器ベースの安全ゲートは、AIシステムが数百回以上のイテレーションを改善しているため、信頼できる監視を維持することができるのか?
彼らができないような総合的な実証的な証拠を提供する。
自己改善型ニューラルネットワーク(d=240)では、MLP、SVM、ランダムフォレスト、k-NN、ベイズ分類器、ディープネットワークにまたがる18の分類器構成が、安全な自己改善のために二重条件で失敗する。
3つの安全RLベースライン(CPO、リャプノフ、安全遮蔽)も故障する。
結果は MuJoCo ベンチマーク(Reacher-v4 d=496, Swimmer-v4 d=1408, HalfCheetah-v4 d=1824)にまで拡張される。
デルタ_s=2.0まで制御された分散分離では、NP最適化テストと100%のトレーニング精度を持つMDPを含むすべての分類器が失敗し、構造的不合理性を示している。
そして、その不確実性は分類に特有であり、自己改善自体を安全にするものではないことを示す。
リプシッツ球検証器は、証明可能な解析的境界(無条件デルタ=0)を用いて、 {84, 240, 768, 2688, 5760, 9984, 17408} の次元 d でゼロの偽受理を達成する。
MuJoCo Reacher-v4では、10個のチェーンがデルタ=0でプラス4.31の報酬を得る。
50-promptのオラクルは、オラクル非依存を確認できる。
構成毎の検証により、ラジイはフルネットワーク球よりも37倍大きい。
d<=17408 では、デルタ=0 は無条件であり、LLMスケールでは、推定リプシッツ定数の条件付きである。
関連論文リスト
- Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Reliable Audio Deepfake Detection in Variable Conditions via Quantum-Kernel SVMs [0.0]
音響ディープフェイク検出において量子カーネルを用いることで,モデルサイズを増大させることなく偽陽性率を低減できることを示す。
量子カーネルSVMと従来のSVMを同一のメル-スペクトログラム前処理を用いて比較する。
QSVMは、ASVspoof 5(2024年)で0.183対0.299、ADD23で0.081対0.188、ASVspoof 2019で0.346対0.399、In-the-Wildで0.355対0.413である。
論文 参考訳(メタデータ) (2025-12-21T16:31:05Z) - Valid Stopping for LLM Generation via Empirical Dynamic Formal Lift [6.908972852063454]
シーケンシャルEDFLは、シーケンシャルベースラインに対して22~28%生成を減少させる。
EDFLは第1段階のフィルタとして機能し、検証負荷を83%削減する。
論文 参考訳(メタデータ) (2025-10-07T21:28:53Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Certified Robustness Under Bounded Levenshtein Distance [55.54271307451233]
畳み込み型分類器のリプシッツ定数をレヴェンシュテイン距離に対して計算する最初の方法を提案する。
我々の方法であるLipsLevは、それぞれ18.80ドル%と13.93ドル%の精度を1ドルと2ドルで得ることができる。
論文 参考訳(メタデータ) (2025-01-23T13:58:53Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Second-Order Provable Defenses against Adversarial Attacks [63.34032156196848]
ネットワークの固有値が有界であれば、凸最適化を用いて$l$ノルムの証明を効率的に計算できることを示す。
認証精度は5.78%,44.96%,43.19%であった。
論文 参考訳(メタデータ) (2020-06-01T05:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。