論文の概要: An Approach to Technical AGI Safety and Security
- arxiv url: http://arxiv.org/abs/2504.01849v1
- Date: Wed, 02 Apr 2025 15:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.42183
- Title: An Approach to Technical AGI Safety and Security
- Title(参考訳): 技術AGIの安全性とセキュリティへのアプローチ
- Authors: Rohin Shah, Alex Irpan, Alexander Matt Turner, Anna Wang, Arthur Conmy, David Lindner, Jonah Brown-Cohen, Lewis Ho, Neel Nanda, Raluca Ada Popa, Rishub Jain, Rory Greig, Samuel Albanie, Scott Emmons, Sebastian Farquhar, Sébastien Krier, Senthooran Rajamanoharan, Sophie Bridgers, Tobi Ijitoye, Tom Everitt, Victoria Krakovna, Vikrant Varma, Vladimir Mikulik, Zachary Kenton, Dave Orr, Shane Legg, Noah Goodman, Allan Dafoe, Four Flynn, Anca Dragan,
- Abstract要約: 我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
- 参考スコア(独自算出の注目度): 72.83728459135101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial General Intelligence (AGI) promises transformative benefits but also presents significant risks. We develop an approach to address the risk of harms consequential enough to significantly harm humanity. We identify four areas of risk: misuse, misalignment, mistakes, and structural risks. Of these, we focus on technical approaches to misuse and misalignment. For misuse, our strategy aims to prevent threat actors from accessing dangerous capabilities, by proactively identifying dangerous capabilities, and implementing robust security, access restrictions, monitoring, and model safety mitigations. To address misalignment, we outline two lines of defense. First, model-level mitigations such as amplified oversight and robust training can help to build an aligned model. Second, system-level security measures such as monitoring and access control can mitigate harm even if the model is misaligned. Techniques from interpretability, uncertainty estimation, and safer design patterns can enhance the effectiveness of these mitigations. Finally, we briefly outline how these ingredients could be combined to produce safety cases for AGI systems.
- Abstract(参考訳): 人工知能(AGI)は変革的利益を約束するが、大きなリスクも生んでいる。
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
誤用、誤調整、ミス、構造的リスクの4つの領域を特定します。
これらのうち、誤用や悪用に対する技術的なアプローチに重点を置いています。
我々の戦略は、危険能力を積極的に識別し、堅牢なセキュリティ、アクセス制限、監視、モデル安全対策を実装することで、脅威アクターが危険な機能にアクセスするのを防ぐことを目的としています。
不整合に対処するため、我々は2つの防衛線を概説する。
第一に、強化された監視や堅牢なトレーニングのようなモデルレベルの緩和は、整合したモデルを構築するのに役立ちます。
第二に、監視やアクセス制御といったシステムレベルのセキュリティ対策は、モデルが不一致であっても害を軽減することができる。
解釈可能性、不確実性推定、より安全な設計パターンといった技術は、これらの緩和の有効性を高めることができる。
最後に,これらの成分を組み合わせることで,AGIシステムの安全性を実現する方法について概説する。
関連論文リスト
- Concept Enhancement Engineering: A Lightweight and Efficient Robust Defense Against Jailbreak Attacks in Embodied AI [19.094809384824064]
エンボディード・インテリジェンス (Embodied Intelligence, EI) システムは大規模言語モデル (LLM) と統合されており、重大なセキュリティリスクに直面している。
入力フィルタリングや出力監視といった従来の防衛戦略は、しばしば高い計算オーバーヘッドをもたらす。
本研究では, 内部アクティベーションを動的に操り, 組込みLDMの安全性を高めるための概念拡張工学(CEE)を提案する。
論文 参考訳(メタデータ) (2025-04-15T03:50:04Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - Safety and Security Risk Mitigation in Satellite Missions via Attack-Fault-Defense Trees [2.252059459291148]
本研究は,アルゼンチンの航空宇宙専門のミッションクリティカルシステム企業であるAscentio Technologiesの事例研究である。
主な焦点は、現在同社が開発している衛星プロジェクトのためのGround Segmentだ。
本稿では,アタックツリー,フォールトツリー,防御機構を統一モデルに統合したアタック・フォールト・ディフェンス・ツリー・フレームワークの適用について述べる。
論文 参考訳(メタデータ) (2025-04-01T17:24:43Z) - Open Problems in Machine Unlearning for AI Safety [61.43515658834902]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。
本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文 参考訳(メタデータ) (2025-01-09T03:59:10Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Sustainable Adaptive Security [11.574868434725117]
本稿では,新たに発見された脅威を軽減し,適応型セキュリティシステムの拡張による永続的保護を反映したサステナブル・アダプティブ・セキュリティ(SAS)の概念を提案する。
私たちはスマートホームの例を使って、持続可能な適応セキュリティを満たすシステムのMAPE(Monitor, Analysis, Planning, Execution)ループのアクティビティをどのように構築できるかを示します。
論文 参考訳(メタデータ) (2023-06-05T08:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。