論文の概要: The Alignment Trap: Complexity Barriers
- arxiv url: http://arxiv.org/abs/2506.10304v1
- Date: Thu, 12 Jun 2025 02:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.537593
- Title: The Alignment Trap: Complexity Barriers
- Title(参考訳): アライメントトラップ:複雑度障壁
- Authors: Jasper Yao,
- Abstract要約: 表現力EXP$(m)$以上のAIシステムの場合、安全性検証には指数時間が必要であり、coNP完全であることを示す。
AI開発は、検証可能な安全性を維持するためにシステムの複雑さを制約し、スケーリング能力中に検証不可能なリスクを受け入れるか、検証以上の基本的な新しい安全パラダイムを開発するか、どちらかを結論付けます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We establish fundamental computational complexity barriers to verifying AI safety as system capabilities scale. Our main results show that for AI systems with expressiveness EXP$(m)$ above a critical threshold $\tau$, safety verification requires exponential time and is coNP-complete. We formalize the Capability-Risk Scaling (CRS) dynamic, which demonstrates how increasing AI capability drives societal safety requirements toward perfection, creating an inescapable tension with verification complexity. Through four core theorems, we prove that (1) verification complexity grows exponentially with system expressiveness, (2) safe policies comprise at most a $2^{-2^m}$ fraction of the policy space, (3) no finite set of alignment techniques can provide universal coverage, and (4) robust safety properties form measure-zero sets for neural networks. These results characterize an "intractability gap" where practical safety requirements fall within the region of computational intractability. We conclude by presenting a strategic trilemma: AI development must either constrain system complexity to maintain verifiable safety, accept unverifiable risks while scaling capabilities, or develop fundamentally new safety paradigms beyond verification. Our work provides the first systematic complexity-theoretic analysis of AI alignment and establishes rigorous bounds that any safety approach must confront. A formal verification of the core theorems in Lean4 is currently in progress.
- Abstract(参考訳): システム能力のスケールとしてAIの安全性を検証するための基本的な計算複雑性障壁を確立します。
我々の主な結果は、表現力EXP$(m)$が臨界閾値$\tau$を超えるAIシステムの場合、安全性検証には指数時間が必要であり、coNP完全であることを示している。
我々は、能力-リスクスケーリング(CRS)のダイナミクスを形式化し、AI能力の増大が社会的安全要件を完璧にし、検証の複雑さと不可避の緊張を生じさせることを示す。
4つのコア定理により,(1) 検証複雑性はシステム表現性とともに指数関数的に増大し,(2) 安全なポリシはポリシー空間の少なくとも2-2^m}=分数で成り立つこと,(3) 有限のアライメント技術が普遍的カバレッジを提供しないこと,(4) ニューラルネットワークの安定性は測度ゼロの集合を形成すること,などが証明された。
これらの結果は,現実的な安全要件が計算的難易度の範囲内にある「難易度ギャップ」を特徴づけるものである。
AI開発は、検証可能な安全性を維持するためにシステムの複雑さを制約し、スケーリング能力中に検証不可能なリスクを受け入れるか、検証以上の基本的な新しい安全パラダイムを開発するか、どちらかを結論付けます。
私たちの研究は、AIアライメントに関する最初の体系的な複雑性理論分析を提供し、あらゆる安全アプローチが直面しなければならない厳密な境界を確立します。
Lean4のコア定理の正式な検証は現在進行中である。
関連論文リスト
- Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
提案する確率的安全性は,大規模展開の残留リスクが予め定義された閾値以下であることを保証することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [7.923638619678924]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - A Domain-Agnostic Scalable AI Safety Ensuring Framework [8.086635708001166]
本稿では,AIシステムが特定の確率でユーザ定義の安全制約を満たすことを保証する新しいフレームワークを提案する。
当社のアプローチでは,任意のAIモデルと最適化問題を組み合わせることで,パフォーマンスを維持しながら,アウトプットが安全要件を満たすことを保証する。
本手法は,穏やかな条件下での確率論的安全性を保証するとともに,AIの安全性における最初のスケーリング法則を確立する。
論文 参考訳(メタデータ) (2025-04-29T16:38:35Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Quantifying AI Vulnerabilities: A Synthesis of Complexity, Dynamical Systems, and Game Theory [0.0]
システム複雑度指数(SCI)、Lyapunov Exponent for AI stability(LEAIS)、Nash Equilibrium Robustness(NER)の3つの指標を導入する新しいアプローチを提案する。
SCIはAIシステムの固有の複雑さを定量化し、LEAISはその安定性と摂動に対する感受性を捉え、NERは敵の操作に対する戦略的堅牢性を評価する。
論文 参考訳(メタデータ) (2024-04-07T07:05:59Z) - Scaling #DNN-Verification Tools with Efficient Bound Propagation and
Parallel Computing [57.49021927832259]
ディープニューラルネットワーク(DNN)は多くのシナリオで異常な結果を示した強力なツールです。
しかし、それらの複雑な設計と透明性の欠如は、現実世界のアプリケーションに適用する際の安全性上の懸念を提起する。
DNNの形式的検証(FV)は、安全面の証明可能な保証を提供する貴重なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-10T13:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。