論文の概要: Deployment Corrections: An incident response framework for frontier AI
models
- arxiv url: http://arxiv.org/abs/2310.00328v1
- Date: Sat, 30 Sep 2023 10:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:13:19.020346
- Title: Deployment Corrections: An incident response framework for frontier AI
models
- Title(参考訳): デプロイメント補正:フロンティアaiモデルのためのインシデント対応フレームワーク
- Authors: Joe O'Brien, Shaun Ee, Zoe Williams
- Abstract要約: 本稿では,デプロイ前リスク管理が不十分な場合の緊急計画について検討する。
危険な機能に対応するためにAI開発者が使用できるデプロイメント修正ツールキットについて説明する。
私たちは、フロンティアAI開発者、標準設定組織、そして規制当局が協力して標準化された業界全体のアプローチを定義することを推奨します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A comprehensive approach to addressing catastrophic risks from AI models
should cover the full model lifecycle. This paper explores contingency plans
for cases where pre-deployment risk management falls short: where either very
dangerous models are deployed, or deployed models become very dangerous.
Informed by incident response practices from industries including
cybersecurity, we describe a toolkit of deployment corrections that AI
developers can use to respond to dangerous capabilities, behaviors, or use
cases of AI models that develop or are detected after deployment. We also
provide a framework for AI developers to prepare and implement this toolkit.
We conclude by recommending that frontier AI developers should (1) maintain
control over model access, (2) establish or grow dedicated teams to design and
maintain processes for deployment corrections, including incident response
plans, and (3) establish these deployment corrections as allowable actions with
downstream users. We also recommend frontier AI developers, standard-setting
organizations, and regulators should collaborate to define a standardized
industry-wide approach to the use of deployment corrections in incident
response.
Caveat: This work applies to frontier AI models that are made available
through interfaces (e.g., API) that provide the AI developer or another
upstream party means of maintaining control over access (e.g., GPT-4 or
Claude). It does not apply to management of catastrophic risk from open-source
models (e.g., BLOOM or Llama-2), for which the restrictions we discuss are
largely unenforceable.
- Abstract(参考訳): aiモデルによる破滅的なリスクに対処するための包括的なアプローチは、モデルライフサイクル全体をカバーするべきである。
本稿では,デプロイ前のリスク管理が不足する場合の緊急計画について検討する。 極めて危険なモデルがデプロイされる場合や,デプロイされたモデルが非常に危険になる場合です。
サイバーセキュリティを含む業界からのインシデント対応のプラクティスによって、私たちは、AI開発者が、デプロイ後に開発または検出されるAIモデルの危険な機能、行動、ユースケースに対応するために使用できるデプロイメント修正ツールキットを記述します。
AI開発者がこのツールキットを準備し実装するためのフレームワークも提供しています。
我々は,(1)モデルアクセスのコントロールを維持すること,(2)インシデント対応計画を含むデプロイメント修正プロセスの設計とメンテナンスを行う専用のチームを確立すること,(3)ダウンストリームユーザによる許容可能なアクションとして,これらのデプロイメント修正を確立することを推奨する。
さらに私たちは、フロンティアAI開発者や標準設定組織、規制当局が協力して、インシデント対応におけるデプロイメント修正の使用に対する業界全体の標準アプローチを定義することを推奨しています。
Caveat: この作業は、AI開発者または他のアップストリームパーティがアクセス制御(GPT-4やClaudeなど)を維持する手段を提供するインターフェース(APIなど)を通じて利用可能な、フロンティアAIモデルに適用されます。
オープンソースのモデル(例えばBLOOMやLlama-2)による破滅的なリスクの管理には適用されない。
関連論文リスト
- Near to Mid-term Risks and Opportunities of Open Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのGenerative AIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - A Path Towards Legal Autonomy: An interoperable and explainable approach to extracting, transforming, loading and computing legal information using large language models, expert systems and Bayesian networks [2.2192488799070444]
法的な自律性は、開発者やデプロイ者、ユーザといったAIアクターに制約を課すこと、あるいはAIエージェントが環境に与える影響の範囲と範囲に制約を課すことによって達成できる。
後者のアプローチでは、AI駆動デバイスに関する既存のルールを、それらのデバイスを制御するAIエージェントのソフトウェアにエンコードする。
このようなアプローチの有効性は、説明可能かつ法的に相互運用可能な法的情報を抽出、ロード、変換、計算する手法を必要とするため、これは課題である。
論文 参考訳(メタデータ) (2024-03-27T13:12:57Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and
Limitations [75.62309487375126]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Coordinated pausing: An evaluation-based coordination scheme for
frontier AI developers [0.2913760942403036]
本稿では,コーディネート・パジング (coorated pausing) について述べる。
5つの主要なステップからなる評価に基づくコーディネーション方式を提案する。
コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。
論文 参考訳(メタデータ) (2023-09-30T13:38:33Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z) - Regulating ChatGPT and other Large Generative AI Models [0.0]
大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーション、図示、作成の方法に急速に変化しています。
本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討する。
LGAIM設定でAIバリューチェーンをキャプチャする新しい用語が提案されている。
論文 参考訳(メタデータ) (2023-02-05T08:56:45Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Monitoring ROS2: from Requirements to Autonomous Robots [58.720142291102135]
本稿では,構造化自然言語で記述された要件から自律ロボットのランタイムモニタを生成するための形式的アプローチの概要について述べる。
当社のアプローチでは,Fletal Requirement Elicitation Tool (FRET) とランタイム検証フレームワークであるCopilotを,Ogma統合ツールを通じて統合しています。
論文 参考訳(メタデータ) (2022-09-28T12:19:13Z) - Performance, Opaqueness, Consequences, and Assumptions: Simple questions
for responsible planning of machine learning solutions [5.802346990263708]
我々は,AIソリューションの計画を支援するための,迅速かつシンプルなフレームワークを提案する。
POCAフレームワークは、パフォーマンス、不透明性、コンシークエンス、そして見積もりの4つの柱に基づいている。
論文 参考訳(メタデータ) (2022-08-21T21:24:42Z) - Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and
Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。
コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。
モデル信号認識における最大4.8倍の改善を実現している。
論文 参考訳(メタデータ) (2021-11-10T17:58:18Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。