論文の概要: Information-Theoretic Limits of Safety Verification for Self-Improving Systems
- arxiv url: http://arxiv.org/abs/2603.28650v2
- Date: Thu, 02 Apr 2026 00:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.171771
- Title: Information-Theoretic Limits of Safety Verification for Self-Improving Systems
- Title(参考訳): 自己改善システムにおける安全性検証の情報理論的限界
- Authors: Arsenios Scrivens,
- Abstract要約: 我々はこの問題を、和 delta_n infinity (bounded risk) と和 TPR_n = infinity (unbounded utility) を必要とする双対条件で定式化する。
総和可能なリスクスケジュールでは、正確な最大到達可能な分類ユーティリティは U*(N, B) = N * TPR_NP(B/N) であり、exp(O(sqrt(log N)) -- subpolynomial として成長する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a safety gate permit unbounded beneficial self-modification while maintaining bounded cumulative risk? We formalize this question through dual conditions -- requiring sum delta_n < infinity (bounded risk) and sum TPR_n = infinity (unbounded utility) -- and establish a theory of their (in)compatibility. Classification impossibility (Theorem 1): For power-law risk schedules delta_n = O(n^{-p}) with p > 1, any classifier-based gate under overlapping safe/unsafe distributions satisfies TPR_n <= C_alpha * delta_n^beta via Holder's inequality, forcing sum TPR_n < infinity. This impossibility is exponent-optimal (Theorem 3). A second independent proof via the NP counting method (Theorem 4) yields a 13% tighter bound without Holder's inequality. Universal finite-horizon ceiling (Theorem 5): For any summable risk schedule, the exact maximum achievable classifier utility is U*(N, B) = N * TPR_NP(B/N), growing as exp(O(sqrt(log N))) -- subpolynomial. At N = 10^6 with budget B = 1.0, a classifier extracts at most U* ~ 87 versus a verifier's ~500,000. Verification escape (Theorem 2): A Lipschitz ball verifier achieves delta = 0 with TPR > 0, escaping the impossibility. Formal Lipschitz bounds for pre-LayerNorm transformers under LoRA enable LLM-scale verification. The separation is strict. We validate on GPT-2 (d_LoRA = 147,456): conditional delta = 0 with TPR = 0.352. Comprehensive empirical validation is in the companion paper [D2].
- Abstract(参考訳): 安全ゲートは、有界累積リスクを維持しつつ、有界な自己修正を許せるか?
この問題を双対条件 (sum delta_n < infinity (bounded risk) と sum TPR_n = infinity (unbounded utility) で定式化し、それらの(非互換性)の理論を確立する。
分類不可能性 (Theorem 1): 電力法リスクスケジュール delta_n = O(n^{-p}) と p > 1 の任意の分類器ベースのゲートは、TPR_n <= C_alpha * delta_n^beta をホルダーの不等式で満たし、TPR_n < infinity の和を強制する。
この不合理性は指数最適化(定理3)である。
NPカウント法 (Theorem 4) による第2の独立証明はホルダーの不等式なしで13%の厳密な境界が得られる。
普遍有限水平天井 (Theorem 5):任意の総和リスクスケジュールに対して、正確な最大到達可能な分類ユーティリティは U*(N, B) = N * TPR_NP(B/N) であり、exp(O(sqrt(log N)) -- subpolynomial として成長する。
予算 B = 1.0 の N = 10^6 では、分類器は最大で U* ~ 87 であり、検証器は 500,000 である。
検証エスケープ(定理2): リプシッツ球検証器は TPR > 0 でデルタ = 0 を達成し、その不可能性から逃れる。
LoRAの下でのプレレイアノーム変圧器の形式的なリプシッツ境界はLLMスケールの検証を可能にする。
分離は厳格である。
GPT-2 (d_LoRA = 147,456): 条件デルタ = 0, TPR = 0.352。
包括的実証検証は共用紙[D2]に記載されている。
関連論文リスト
- Convergence of Two Time-Scale Stochastic Approximation: A Martingale Approach [0.0]
ボルカール (1997) で導入された2つの時間スケール近似 (TTSSA) アルゴリズムを, マーチンゲール法を用いて解析した。
我々の理論は非線形方程式に適用できるが、TSSAの文献では方程式が線型であると仮定する多くの論文とは対照的である。
論文 参考訳(メタデータ) (2026-03-15T17:00:28Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits [54.220839560203096]
FGTSVA, 変分対応型トンプソンサンプリングアルゴリズムを提案する。
新しいデカップリング係数を$mathrmdc$で表すと、FGTS-VAは$tildeO(sqrtmathrmdccdotlog|mathcalF|$)を後悔する。
文脈線形帯域の設定において、FGTSVAの後悔境界は UCB ベースと一致する
論文 参考訳(メタデータ) (2025-11-03T23:25:41Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - A High-dimensional Convergence Theorem for U-statistics with
Applications to Kernel-based Testing [3.469038201881982]
次数2のU-統計量に対して収束定理を証明し、データ次元$d$はサンプルサイズ$n$でスケールすることができる。
我々はこの理論を、高次元性能の研究が困難である2つのカーネルベースの分散テスト MMD と KSD に適用した。
論文 参考訳(メタデータ) (2023-02-11T12:49:46Z) - $\mathscr{H}$-Consistency Estimation Error of Surrogate Loss Minimizers [38.56401704010528]
本稿では,サロゲート損失推定誤差の観点から推定誤差を詳細に検討する。
このような保証を$mathscrH$-consistency estimation error boundsと呼ぶ。
論文 参考訳(メタデータ) (2022-05-16T23:13:36Z) - Provable Adversarial Robustness for Fractional Lp Threat Models [136.79415677706612]
分数L_pの「ノルム」で区切られた攻撃はまだ十分に検討されていない。
いくつかの望ましい性質を持つ防衛法を提案する。
証明可能な(認証された)堅牢性を提供し、ImageNetにスケールし、(高い確率ではなく)決定論的保証を得る。
論文 参考訳(メタデータ) (2022-03-16T21:11:41Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。