論文の概要: The Alignment Trap: Complexity Barriers
- arxiv url: http://arxiv.org/abs/2506.10304v2
- Date: Tue, 24 Jun 2025 23:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:56.566956
- Title: The Alignment Trap: Complexity Barriers
- Title(参考訳): アライメントトラップ:複雑度障壁
- Authors: Jasper Yao,
- Abstract要約: 本稿は、AIアライメントは単に難しいだけでなく、基本的な論理的矛盾に基づくものである、と論じる。
私たちは、すべての必要な安全ルールを列挙できないため、マシンラーニングを正確に使用しています。
このパラドックスは、5つの独立した数学的証明によって確認される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper argues that AI alignment is not merely difficult, but is founded on a fundamental logical contradiction. We first establish The Enumeration Paradox: we use machine learning precisely because we cannot enumerate all necessary safety rules, yet making ML safe requires examples that can only be generated from the very enumeration we admit is impossible. This paradox is then confirmed by a set of five independent mathematical proofs, or "pillars of impossibility." Our main results show that: (1) Geometric Impossibility: The set of safe policies has measure zero, a necessary consequence of projecting infinite-dimensional world-context requirements onto finite-dimensional models. (2) Computational Impossibility: Verifying a policy's safety is coNP-complete, even for non-zero error tolerances. (3) Statistical Impossibility: The training data required for safety (abundant examples of rare disasters) is a logical contradiction and thus unobtainable. (4) Information-Theoretic Impossibility: Safety rules contain more incompressible, arbitrary information than any feasible network can store. (5) Dynamic Impossibility: The optimization process for increasing AI capability is actively hostile to safety, as the gradients for the two objectives are generally anti-aligned. Together, these results demonstrate that the pursuit of safe, highly capable AI is not a matter of overcoming technical hurdles, but of confronting fundamental, interlocking barriers. The paper concludes by presenting a strategic trilemma that these impossibilities force upon the field. A formal verification of the core theorems in Lean4 is currently in progress.
- Abstract(参考訳): 本稿は、AIアライメントは単に難しいだけでなく、基本的な論理的矛盾に基づくものである、と論じる。
私たちは、すべての必要な安全ルールを列挙できないため、マシンラーニングを正確に使用しています。
このパラドックスは、5つの独立した数学的証明、すなわち「不可能のピラー」によって確認される。
幾何学的不合理性(Geometric Impossibility): 安全なポリシーの集合はゼロであり、無限次元の世界コンテキスト要求を有限次元モデルに投影するために必要な結果である。
2)計算不可能性:非ゼロエラー耐性においても,政策の安全性の検証はcoNP完全である。
3) 統計的不合理性: 安全に必要な訓練データ(まれな災害の既往例)は論理的矛盾であり, 達成不可能である。
(4) 情報理論的不合理性: 安全規則は、どのネットワークにも格納できるものよりも、より非圧縮的で任意の情報を含んでいる。
(5) 動的不合理性:AI能力を高めるための最適化プロセスは、2つの目的の勾配が概して反協調的であるため、安全に対して積極的に敵対的である。
これらの結果は、安全で高い能力を持つAIの追求は、技術的なハードルを克服するだけでなく、基本的なインターロック障壁に直面する問題であることを示している。
この論文は、これらの不合理性が戦場に作用するという戦略的三つの補題を提示することで締めくくっている。
Lean4のコア定理の正式な検証は現在進行中である。
関連論文リスト
- Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
提案する確率的安全性は,大規模展開の残留リスクが予め定義された閾値以下であることを保証することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [7.923638619678924]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - A Domain-Agnostic Scalable AI Safety Ensuring Framework [8.086635708001166]
本稿では,AIシステムが特定の確率でユーザ定義の安全制約を満たすことを保証する新しいフレームワークを提案する。
当社のアプローチでは,任意のAIモデルと最適化問題を組み合わせることで,パフォーマンスを維持しながら,アウトプットが安全要件を満たすことを保証する。
本手法は,穏やかな条件下での確率論的安全性を保証するとともに,AIの安全性における最初のスケーリング法則を確立する。
論文 参考訳(メタデータ) (2025-04-29T16:38:35Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Quantifying AI Vulnerabilities: A Synthesis of Complexity, Dynamical Systems, and Game Theory [0.0]
システム複雑度指数(SCI)、Lyapunov Exponent for AI stability(LEAIS)、Nash Equilibrium Robustness(NER)の3つの指標を導入する新しいアプローチを提案する。
SCIはAIシステムの固有の複雑さを定量化し、LEAISはその安定性と摂動に対する感受性を捉え、NERは敵の操作に対する戦略的堅牢性を評価する。
論文 参考訳(メタデータ) (2024-04-07T07:05:59Z) - Scaling #DNN-Verification Tools with Efficient Bound Propagation and
Parallel Computing [57.49021927832259]
ディープニューラルネットワーク(DNN)は多くのシナリオで異常な結果を示した強力なツールです。
しかし、それらの複雑な設計と透明性の欠如は、現実世界のアプリケーションに適用する際の安全性上の懸念を提起する。
DNNの形式的検証(FV)は、安全面の証明可能な保証を提供する貴重なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-10T13:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。