論文の概要: Governable AI: Provable Safety Under Extreme Threat Models
- arxiv url: http://arxiv.org/abs/2508.20411v1
- Date: Thu, 28 Aug 2025 04:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.99502
- Title: Governable AI: Provable Safety Under Extreme Threat Models
- Title(参考訳): Governable AI: 極度の脅威モデル下での安全性
- Authors: Donglin Wang, Weiyun Liang, Chunyuan Chen, Jing Xu, Yulong Fu,
- Abstract要約: 我々は、従来の内部制約から外部に強制された構造コンプライアンスに移行するGAI(Governable AI)フレームワークを提案する。
GAIフレームワークは、シンプルで信頼性が高く、完全に決定論的で、強力で、柔軟性があり、汎用的なルール執行モジュール(REM)、ガバナンスルール、AIによる妥協やサブバージョンに対するエンドツーエンドの保護を提供する、統制可能なセキュアなスーパープラットフォーム(GSSP)で構成されている。
- 参考スコア(独自算出の注目度): 31.36879992618843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI rapidly advances, the security risks posed by AI are becoming increasingly severe, especially in critical scenarios, including those posing existential risks. If AI becomes uncontrollable, manipulated, or actively evades safety mechanisms, it could trigger systemic disasters. Existing AI safety approaches-such as model enhancement, value alignment, and human intervention-suffer from fundamental, in-principle limitations when facing AI with extreme motivations and unlimited intelligence, and cannot guarantee security. To address this challenge, we propose a Governable AI (GAI) framework that shifts from traditional internal constraints to externally enforced structural compliance based on cryptographic mechanisms that are computationally infeasible to break, even for future AI, under the defined threat model and well-established cryptographic assumptions.The GAI framework is composed of a simple yet reliable, fully deterministic, powerful, flexible, and general-purpose rule enforcement module (REM); governance rules; and a governable secure super-platform (GSSP) that offers end-to-end protection against compromise or subversion by AI. The decoupling of the governance rules and the technical platform further enables a feasible and generalizable technical pathway for the safety governance of AI. REM enforces the bottom line defined by governance rules, while GSSP ensures non-bypassability, tamper-resistance, and unforgeability to eliminate all identified attack vectors. This paper also presents a rigorous formal proof of the security properties of this mechanism and demonstrates its effectiveness through a prototype implementation evaluated in representative high-stakes scenarios.
- Abstract(参考訳): AIが急速に進歩するにつれて、AIによって引き起こされるセキュリティリスクはますます深刻になってきている。
もしAIが制御不能になり、操作不能になり、安全メカニズムを積極的に回避できれば、システム的災害を引き起こす可能性がある。
モデル強化、バリューアライメント、人間の介入サファーといった既存のAIの安全性アプローチは、極端なモチベーションと無限の知性を持つAIに直面した場合に、基本的な、基本的な制限から守られ、セキュリティを保証することはできない。
この課題に対処するために、GAIフレームワークは、単純で信頼性が高く、信頼性が高く、決定性が高く、柔軟で、汎用的なルール執行モジュール(REM)、ガバナンスルール、AIによる妥協や置換に対するエンドツーエンドの保護を提供する統制可能なセキュアなスーパープラットフォーム(GSSP)で構成される。
ガバナンスルールと技術プラットフォームを分離することで、AIの安全ガバナンスのための実現可能な、一般化可能な技術パスをさらに実現します。
REMはガバナンスルールで定義されたボトムラインを強制する一方、GSSPは非バイパス性、タンパー抵抗性、および偽造性を保証し、特定された攻撃ベクトルをすべて排除する。
また,本機構のセキュリティ特性の厳密な形式的証明を提示し,その有効性を,代表的ハイテイクシナリオで評価したプロトタイプ実装を通じて示す。
関連論文リスト
- Rethinking Autonomy: Preventing Failures in AI-Driven Software Engineering [1.6766200616088744]
SAFE-AI Frameworkは、安全性、監査可能性、フィードバック、説明可能性を強調した総合的なアプローチである。
我々は、リスク評価と監視を導くために、提案的、生成的、自律的、破壊的なアクションを分類する、AI行動の新しい分類法を導入する。
この記事では、EU AI ActやカナダのAIDAといった新たな規則に沿って、ソフトウェアエンジニアリングにおける責任あるAI統合のためのロードマップを提供する。
論文 参考訳(メタデータ) (2025-08-15T22:13:54Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - International Security Applications of Flexible Hardware-Enabled Guarantees [0.0]
flexHEGは、標準化された設計、堅牢なエコシステム防御、AI関連チップの明確な運用パラメータを確立することで、国際的に信頼できるAIガバナンスを可能にする。
悪意ある使用に対処するために増殖を制限すること、コントロールの喪失を防ぐための安全基準を実装すること、軍事AIシステムからのリスクを管理すること、国家主権を尊重しながらバランス・オブ・パワーのメカニズムを通じて戦略的安定性をサポートすること、の4つの重要な国際セキュリティアプリケーションを分析します。
レポートは、AI関連チップの技術的しきい値、既存の非FlexHEGハードウェアの管理、ガバナンスパワーの悪用に対する保護など、重要な実装上の課題に対処する。
論文 参考訳(メタデータ) (2025-06-18T03:10:49Z) - Mitigating Cyber Risk in the Age of Open-Weight LLMs: Policy Gaps and Technical Realities [0.0]
オープンウェイト汎用AI(GPAI)モデルには大きなメリットがあるが、重大なサイバーセキュリティリスクも伴う。
本稿では、オープンウェイトAIリリースによって拡大した、マルウェア開発とソーシャルエンジニアリングの強化を含む、特定の脅威を分析する。
本稿では,モデル全体ではなく,特定のハイリスク機能の評価と制御に重点を置く経路を提案する。
論文 参考訳(メタデータ) (2025-05-21T11:35:52Z) - Offensive Security for AI Systems: Concepts, Practices, and Applications [0.0]
従来の防御策は、AI駆動技術に直面するユニークで進化する脅威に対して、しばしば不足する。
本稿では、AIライフサイクル全体を通して脆弱性を明らかにするために、積極的な脅威シミュレーションと敵対的なテストを強調する。
論文 参考訳(メタデータ) (2025-05-09T18:58:56Z) - Threat Modeling for AI: The Case for an Asset-Centric Approach [0.23408308015481666]
AIシステムは、自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用することが可能になった。
AIシステムが自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用できるようになったことで、従来のセキュリティアプローチは不足する。
本稿では、脅威モデリングAIシステムのための資産中心の方法論を紹介する。
論文 参考訳(メタデータ) (2025-05-08T18:57:08Z) - Position: Mind the Gap-the Growing Disconnect Between Established Vulnerability Disclosure and AI Security [56.219994752894294]
我々は、AIセキュリティレポートに既存のプロセスを適用することは、AIシステムの特徴的な特徴に対する根本的な欠点のために失敗する運命にあると主張している。
これらの欠点に対処する私たちの提案に基づき、AIセキュリティレポートへのアプローチと、新たなAIパラダイムであるAIエージェントが、AIセキュリティインシデント報告の進展をさらに強化する方法について論じる。
論文 参考訳(メタデータ) (2024-12-19T13:50:26Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。