論文の概要: \texttt{R$^\textbf{2}$AI}: Towards Resistant and Resilient AI in an Evolving World
- arxiv url: http://arxiv.org/abs/2509.06786v1
- Date: Mon, 08 Sep 2025 15:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.210451
- Title: \texttt{R$^\textbf{2}$AI}: Towards Resistant and Resilient AI in an Evolving World
- Title(参考訳): \texttt{R$^\textbf{2}$AI}:進化する世界におけるレジリエンスとレジリエントAIを目指して
- Authors: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou,
- Abstract要約: 既存のパラダイムは、ポストホックアライメントとガードレールを適用するが、脆弱でリアクティブであるMake AI Safe'と、本質的な安全性を強調するMake Safe AI'に分割されている。
本研究では,生物免疫にインスパイアされたMake Safe AIのパラダイムの新たな定式化として,テキストセーフ・バイ・コエボリューション(textitsafe-by-coevolution)'を提案する。
- 参考スコア(独自算出の注目度): 28.72178770451795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this position paper, we address the persistent gap between rapidly growing AI capabilities and lagging safety progress. Existing paradigms divide into ``Make AI Safe'', which applies post-hoc alignment and guardrails but remains brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety but struggles to address unforeseen risks in open-ended environments. We therefore propose \textit{safe-by-coevolution} as a new formulation of the ``Make Safe AI'' paradigm, inspired by biological immunity, in which safety becomes a dynamic, adversarial, and ongoing learning process. To operationalize this vision, we introduce \texttt{R$^2$AI} -- \textit{Resistant and Resilient AI} -- as a practical framework that unites resistance against known threats with resilience to unforeseen risks. \texttt{R$^2$AI} integrates \textit{fast and slow safe models}, adversarial simulation and verification through a \textit{safety wind tunnel}, and continual feedback loops that guide safety and capability to coevolve. We argue that this framework offers a scalable and proactive path to maintain continual safety in dynamic environments, addressing both near-term vulnerabilities and long-term existential risks as AI advances toward AGI and ASI.
- Abstract(参考訳): 本稿では,急速に成長するAI能力と,遅延する安全性の進歩との間にある永続的なギャップについて論じる。
既存のパラダイムは、ポストホックアライメントとガードレールを適用するが、脆弱でリアクティブな‘Make AI Safe’’と、本質的な安全性を強調するが、オープンな環境における予期せぬリスクに対処するのに苦労する‘Make Safe AI’に分割されている。
そこで我々は,生物免疫に触発された‘Make Safe AI’パラダイムの新たな定式化として,‘textit{safe-by-coevolution} を提案する。
このビジョンを運用するために、予期せぬリスクに対するレジリエンスを備えた既知の脅威に対する抵抗を統一する実践的なフレームワークとして、 \textt{R$^2$AI} -- \textit{Resistant and Resilient AI}を紹介します。
\texttt{R$^2$AI} は、 \textit{fast and slow safe model} 、 \textit{safety Wind tunnel} による逆シミュレーションと検証、安全性と能力の共進化を導く連続的なフィードバックループを統合する。
このフレームワークは、動的環境における継続的な安全性を維持するためのスケーラブルで積極的なパスを提供し、AIがAGIやAISに向かって前進するにつれて、短期的脆弱性と長期的な存在リスクの両方に対処します。
関連論文リスト
- ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.43571798620185]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - AI Safety vs. AI Security: Demystifying the Distinction and Boundaries [37.57137473409321]
しばしば「AI安全」と「AI安全」が使われ、時には相互に使用され、概念的に混乱する。
本稿では,AIセーフティとAIセキュリティの正確な研究境界の明確化と記述を目的とした。
論文 参考訳(メタデータ) (2025-06-21T18:36:03Z) - Offensive Security for AI Systems: Concepts, Practices, and Applications [0.0]
従来の防御策は、AI駆動技術に直面するユニークで進化する脅威に対して、しばしば不足する。
本稿では、AIライフサイクル全体を通して脆弱性を明らかにするために、積極的な脅威シミュレーションと敵対的なテストを強調する。
論文 参考訳(メタデータ) (2025-05-09T18:58:56Z) - Transforming Cyber Defense: Harnessing Agentic and Frontier AI for Proactive, Ethical Threat Intelligence [0.0]
この原稿は、エージェントAIとフロンティアAIの収束がサイバーセキュリティをいかに変えているかを説明する。
本稿では,リアルタイムモニタリング,自動インシデント応答,永続的学習といった,レジリエントでダイナミックな防衛エコシステム構築における役割について検討する。
我々のビジョンは、テクノロジーのイノベーションを、倫理的監視を揺るがさずに調和させることであり、未来のAIによるセキュリティソリューションが、新たなサイバー脅威を効果的に対処しつつ、公正性、透明性、説明責任の核心的価値を維持することを保証することである。
論文 参考訳(メタデータ) (2025-02-28T20:23:35Z) - AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。
AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。
我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-24T02:11:52Z) - AI Safety for Everyone [3.440579243843689]
AIの安全性に関する最近の議論と研究は、AIの安全性と高度なAIシステムからの現実的リスクとの深いつながりを強調している。
このフレーミングは、AIの安全性にコミットしているが、異なる角度から分野にアプローチする研究者や実践者を排除する可能性がある。
私たちは、現在のAIシステムに対する即時的で実践的な懸念に対処する、数多くの具体的な安全作業を見つけました。
論文 参考訳(メタデータ) (2025-02-13T13:04:59Z) - Position: Mind the Gap-the Growing Disconnect Between Established Vulnerability Disclosure and AI Security [56.219994752894294]
我々は、AIセキュリティレポートに既存のプロセスを適用することは、AIシステムの特徴的な特徴に対する根本的な欠点のために失敗する運命にあると主張している。
これらの欠点に対処する私たちの提案に基づき、AIセキュリティレポートへのアプローチと、新たなAIパラダイムであるAIエージェントが、AIセキュリティインシデント報告の進展をさらに強化する方法について論じる。
論文 参考訳(メタデータ) (2024-12-19T13:50:26Z) - AI Risk Management Should Incorporate Both Safety and Security [185.68738503122114]
AIリスクマネジメントの利害関係者は、安全とセキュリティの間のニュアンス、シナジー、相互作用を意識すべきである、と私たちは主張する。
我々は、AIの安全性とAIのセキュリティの違いと相互作用を明らかにするために、統一された参照フレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T21:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。