論文の概要: Deployment Corrections: An incident response framework for frontier AI
models
- arxiv url: http://arxiv.org/abs/2310.00328v1
- Date: Sat, 30 Sep 2023 10:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:13:19.020346
- Title: Deployment Corrections: An incident response framework for frontier AI
models
- Title(参考訳): デプロイメント補正:フロンティアaiモデルのためのインシデント対応フレームワーク
- Authors: Joe O'Brien, Shaun Ee, Zoe Williams
- Abstract要約: 本稿では,デプロイ前リスク管理が不十分な場合の緊急計画について検討する。
危険な機能に対応するためにAI開発者が使用できるデプロイメント修正ツールキットについて説明する。
私たちは、フロンティアAI開発者、標準設定組織、そして規制当局が協力して標準化された業界全体のアプローチを定義することを推奨します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A comprehensive approach to addressing catastrophic risks from AI models
should cover the full model lifecycle. This paper explores contingency plans
for cases where pre-deployment risk management falls short: where either very
dangerous models are deployed, or deployed models become very dangerous.
Informed by incident response practices from industries including
cybersecurity, we describe a toolkit of deployment corrections that AI
developers can use to respond to dangerous capabilities, behaviors, or use
cases of AI models that develop or are detected after deployment. We also
provide a framework for AI developers to prepare and implement this toolkit.
We conclude by recommending that frontier AI developers should (1) maintain
control over model access, (2) establish or grow dedicated teams to design and
maintain processes for deployment corrections, including incident response
plans, and (3) establish these deployment corrections as allowable actions with
downstream users. We also recommend frontier AI developers, standard-setting
organizations, and regulators should collaborate to define a standardized
industry-wide approach to the use of deployment corrections in incident
response.
Caveat: This work applies to frontier AI models that are made available
through interfaces (e.g., API) that provide the AI developer or another
upstream party means of maintaining control over access (e.g., GPT-4 or
Claude). It does not apply to management of catastrophic risk from open-source
models (e.g., BLOOM or Llama-2), for which the restrictions we discuss are
largely unenforceable.
- Abstract(参考訳): aiモデルによる破滅的なリスクに対処するための包括的なアプローチは、モデルライフサイクル全体をカバーするべきである。
本稿では,デプロイ前のリスク管理が不足する場合の緊急計画について検討する。 極めて危険なモデルがデプロイされる場合や,デプロイされたモデルが非常に危険になる場合です。
サイバーセキュリティを含む業界からのインシデント対応のプラクティスによって、私たちは、AI開発者が、デプロイ後に開発または検出されるAIモデルの危険な機能、行動、ユースケースに対応するために使用できるデプロイメント修正ツールキットを記述します。
AI開発者がこのツールキットを準備し実装するためのフレームワークも提供しています。
我々は,(1)モデルアクセスのコントロールを維持すること,(2)インシデント対応計画を含むデプロイメント修正プロセスの設計とメンテナンスを行う専用のチームを確立すること,(3)ダウンストリームユーザによる許容可能なアクションとして,これらのデプロイメント修正を確立することを推奨する。
さらに私たちは、フロンティアAI開発者や標準設定組織、規制当局が協力して、インシデント対応におけるデプロイメント修正の使用に対する業界全体の標準アプローチを定義することを推奨しています。
Caveat: この作業は、AI開発者または他のアップストリームパーティがアクセス制御(GPT-4やClaudeなど)を維持する手段を提供するインターフェース(APIなど)を通じて利用可能な、フロンティアAIモデルに適用されます。
オープンソースのモデル(例えばBLOOMやLlama-2)による破滅的なリスクの管理には適用されない。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Auction-Based Regulation for Artificial Intelligence [28.86995747151915]
本稿では,AIの安全性を規制するオークションベースの規制機構を提案する。
我々は、各参加エージェントの最善の戦略は、所定の最小限の安全閾値よりも安全なモデルを送ることであることを確実に保証する。
その結果,我々の規制オークションは,安全率と参加率を20%,参加率を15%向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:57:02Z) - Adapting cybersecurity frameworks to manage frontier AI risks: A defense-in-depth approach [0.0]
AI関連のリスク管理におけるギャップの特定を支援する3つのアプローチを概説する。
まず、機能的なアプローチは、リスク管理アプローチがカバーすべきアクティビティの不可欠なカテゴリを特定します。
第二に、ライフサイクルのアプローチは、モデル開発ライフサイクル全体にわたって安全とセキュリティのアクティビティを割り当てます。
第3に、脅威に基づくアプローチは、悪意のあるアクターが使用する戦術、テクニック、手順を特定する。
論文 参考訳(メタデータ) (2024-08-15T05:06:03Z) - MORTAR: A Model-based Runtime Action Repair Framework for AI-enabled Cyber-Physical Systems [21.693552236958983]
CPS(Cyber-Physical Systems)は、様々な産業や日常生活領域でますます普及している。
近年の人工知能(AI)の発展に伴い、学習ベースのコンポーネント、特にAIコントローラは、CPSの機能と効率を高める上で欠かせないものとなっている。
これらのAIコントローラの解釈可能性の欠如は、AI対応CPS(AI-CPS)の安全性と品質保証に課題をもたらす。
論文 参考訳(メタデータ) (2024-08-07T16:44:53Z) - Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。
この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (2024-05-14T13:37:36Z) - A Path Towards Legal Autonomy: An interoperable and explainable approach to extracting, transforming, loading and computing legal information using large language models, expert systems and Bayesian networks [2.2192488799070444]
法的な自律性は、開発者やデプロイ者、ユーザといったAIアクターに制約を課すこと、あるいはAIエージェントが環境に与える影響の範囲と範囲に制約を課すことによって達成できる。
後者のアプローチでは、AI駆動デバイスに関する既存のルールを、それらのデバイスを制御するAIエージェントのソフトウェアにエンコードする。
このようなアプローチの有効性は、説明可能かつ法的に相互運用可能な法的情報を抽出、ロード、変換、計算する手法を必要とするため、これは課題である。
論文 参考訳(メタデータ) (2024-03-27T13:12:57Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Monitoring ROS2: from Requirements to Autonomous Robots [58.720142291102135]
本稿では,構造化自然言語で記述された要件から自律ロボットのランタイムモニタを生成するための形式的アプローチの概要について述べる。
当社のアプローチでは,Fletal Requirement Elicitation Tool (FRET) とランタイム検証フレームワークであるCopilotを,Ogma統合ツールを通じて統合しています。
論文 参考訳(メタデータ) (2022-09-28T12:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。