Fugu-MT 論文翻訳(概要): Deployment Corrections: An incident response framework for frontier AI models

論文の概要: Deployment Corrections: An incident response framework for frontier AI models

arxiv url: http://arxiv.org/abs/2310.00328v1
Date: Sat, 30 Sep 2023 10:07:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 05:13:19.020346
Title: Deployment Corrections: An incident response framework for frontier AI models
Title（参考訳）: デプロイメント補正:フロンティアaiモデルのためのインシデント対応フレームワーク
Authors: Joe O'Brien, Shaun Ee, Zoe Williams
Abstract要約: 本稿では,デプロイ前リスク管理が不十分な場合の緊急計画について検討する。危険な機能に対応するためにAI開発者が使用できるデプロイメント修正ツールキットについて説明する。私たちは、フロンティアAI開発者、標準設定組織、そして規制当局が協力して標準化された業界全体のアプローチを定義することを推奨します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A comprehensive approach to addressing catastrophic risks from AI models should cover the full model lifecycle. This paper explores contingency plans for cases where pre-deployment risk management falls short: where either very dangerous models are deployed, or deployed models become very dangerous. Informed by incident response practices from industries including cybersecurity, we describe a toolkit of deployment corrections that AI developers can use to respond to dangerous capabilities, behaviors, or use cases of AI models that develop or are detected after deployment. We also provide a framework for AI developers to prepare and implement this toolkit. We conclude by recommending that frontier AI developers should (1) maintain control over model access, (2) establish or grow dedicated teams to design and maintain processes for deployment corrections, including incident response plans, and (3) establish these deployment corrections as allowable actions with downstream users. We also recommend frontier AI developers, standard-setting organizations, and regulators should collaborate to define a standardized industry-wide approach to the use of deployment corrections in incident response. Caveat: This work applies to frontier AI models that are made available through interfaces (e.g., API) that provide the AI developer or another upstream party means of maintaining control over access (e.g., GPT-4 or Claude). It does not apply to management of catastrophic risk from open-source models (e.g., BLOOM or Llama-2), for which the restrictions we discuss are largely unenforceable.
Abstract（参考訳）: aiモデルによる破滅的なリスクに対処するための包括的なアプローチは、モデルライフサイクル全体をカバーするべきである。本稿では,デプロイ前のリスク管理が不足する場合の緊急計画について検討する。極めて危険なモデルがデプロイされる場合や,デプロイされたモデルが非常に危険になる場合です。サイバーセキュリティを含む業界からのインシデント対応のプラクティスによって、私たちは、AI開発者が、デプロイ後に開発または検出されるAIモデルの危険な機能、行動、ユースケースに対応するために使用できるデプロイメント修正ツールキットを記述します。 AI開発者がこのツールキットを準備し実装するためのフレームワークも提供しています。我々は,(1)モデルアクセスのコントロールを維持すること,(2)インシデント対応計画を含むデプロイメント修正プロセスの設計とメンテナンスを行う専用のチームを確立すること,(3)ダウンストリームユーザによる許容可能なアクションとして,これらのデプロイメント修正を確立することを推奨する。さらに私たちは、フロンティアAI開発者や標準設定組織、規制当局が協力して、インシデント対応におけるデプロイメント修正の使用に対する業界全体の標準アプローチを定義することを推奨しています。 Caveat: この作業は、AI開発者または他のアップストリームパーティがアクセス制御(GPT-4やClaudeなど)を維持する手段を提供するインターフェース(APIなど)を通じて利用可能な、フロンティアAIモデルに適用されます。オープンソースのモデル(例えばBLOOMやLlama-2)による破滅的なリスクの管理には適用されない。

関連論文リスト

AI Risk-Management Standards Profile for General-Purpose AI (GPAI) and Foundation Models [15.890326508488673]
この文書はGPAI/基礎モデルのリスクを特定し、分析し、緩和するためのリスク管理のプラクティスやコントロールを提供する。この文書は主に、大規模かつ最先端のGPAI/基礎モデルの開発者を対象としている。
論文参考訳（メタデータ） (2025-06-30T15:18:18Z)
Engineering Risk-Aware, Security-by-Design Frameworks for Assurance of Large-Scale Autonomous AI Models [0.0]
本稿では,大規模自律型AIシステムを対象とした企業レベルのリスク認識型セキュリティ・バイ・デザイン手法を提案する。敵的および運用的ストレス下でのモデル動作の証明可能な保証を提供する統一パイプラインについて詳述する。国家安全保障、オープンソースモデルガバナンス、産業自動化におけるケーススタディは、脆弱性とコンプライアンスのオーバーヘッドの計測可能な削減を実証している。
論文参考訳（メタデータ） (2025-05-09T20:14:53Z)
An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文参考訳（メタデータ） (2025-04-02T15:59:31Z)
AI2Agent: An End-to-End Framework for Deploying AI Projects as Autonomous Agents [15.802600809497097]
本稿では、ガイドライン駆動実行を通じてAIプロジェクトのデプロイメントを自動化するエンドツーエンドフレームワークであるAI2Agentを紹介する。我々は、TTS、テキスト・ツー・イメージ生成、画像編集、その他のAIアプリケーションをカバーする、30のAIデプロイメントケースの実験を行った。その結果、AI2Agentはデプロイメント時間を大幅に短縮し、成功率を向上させることがわかった。
論文参考訳（メタデータ） (2025-03-31T10:58:34Z)
Graph of Effort: Quantifying Risk of AI Usage for Vulnerability Assessment [0.0]
非AI資産を攻撃するために使用されるAIは、攻撃的AIと呼ばれる。高度な自動化や複雑なパターン認識など、その能力を利用するリスクは大幅に増大する可能性がある。本稿では,攻撃的AIを敵による脆弱性攻撃に使用するために必要な労力を分析するための,直感的でフレキシブルで効果的な脅威モデリング手法であるGraph of Effortを紹介する。
論文参考訳（メタデータ） (2025-03-20T17:52:42Z)
On Regulating Downstream AI Developers [1.053373860696675]
ファンデーションモデルは、親密な画像の乱用、サイバー攻撃、バイオテロなど、重大なリスクを負う可能性がある。これらのリスクを減らすため、政策立案者はこれらのモデルの開発者に義務を課し始めている。下流の開発者は、モデルの能力を改善したり、安全性機能を妥協することで、リスクを創造または増幅することができる。
論文参考訳（メタデータ） (2025-03-14T23:15:54Z)
Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文参考訳（メタデータ） (2025-02-17T03:05:20Z)
Fundamental Risks in the Current Deployment of General-Purpose AI Models: What Have We (Not) Learnt From Cybersecurity? [60.629883024152576]
大規模言語モデル(LLM)は、幅広いユースケースで急速にデプロイされている。 OpenAIs Alteraは、自律性の向上、データアクセス、実行機能の一例に過ぎない。これらの方法には、さまざまなサイバーセキュリティ上の課題が伴う。
論文参考訳（メタデータ） (2024-12-19T14:44:41Z)
Position: Mind the Gap-the Growing Disconnect Between Established Vulnerability Disclosure and AI Security [56.219994752894294]
我々は、AIセキュリティレポートに既存のプロセスを適用することは、AIシステムの特徴的な特徴に対する根本的な欠点のために失敗する運命にあると主張している。これらの欠点に対処する私たちの提案に基づき、AIセキュリティレポートへのアプローチと、新たなAIパラダイムであるAIエージェントが、AIセキュリティインシデント報告の進展をさらに強化する方法について論じる。
論文参考訳（メタデータ） (2024-12-19T13:50:26Z)
Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? [50.62012690460685]
本稿では、制御プロトコルを変換する独自の戦略で、AIシステムがいかにうまく生成し、動作できるかを検討する。 AIシステムは、各コンテキストにおける最適なプランを確実に生成し、適切に調整された確率で行動し、通信せずに他のインスタンスと計画を調整する必要がある。
論文参考訳（メタデータ） (2024-12-17T02:33:45Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Auction-Based Regulation for Artificial Intelligence [28.86995747151915]
本稿では,AIの安全性を規制するオークションベースの規制機構を提案する。我々は、各参加エージェントの最善の戦略は、所定の最小限の安全閾値よりも安全なモデルを送ることであることを確実に保証する。その結果,我々の規制オークションは,安全率と参加率を20%,参加率を15%向上させることがわかった。
論文参考訳（メタデータ） (2024-10-02T17:57:02Z)
Adapting cybersecurity frameworks to manage frontier AI risks: A defense-in-depth approach [0.0]
AI関連のリスク管理におけるギャップの特定を支援する3つのアプローチを概説する。まず、機能的なアプローチは、リスク管理アプローチがカバーすべきアクティビティの不可欠なカテゴリを特定します。第二に、ライフサイクルのアプローチは、モデル開発ライフサイクル全体にわたって安全とセキュリティのアクティビティを割り当てます。第3に、脅威に基づくアプローチは、悪意のあるアクターが使用する戦術、テクニック、手順を特定する。
論文参考訳（メタデータ） (2024-08-15T05:06:03Z)
MORTAR: A Model-based Runtime Action Repair Framework for AI-enabled Cyber-Physical Systems [21.693552236958983]
CPS(Cyber-Physical Systems)は、様々な産業や日常生活領域でますます普及している。近年の人工知能(AI)の発展に伴い、学習ベースのコンポーネント、特にAIコントローラは、CPSの機能と効率を高める上で欠かせないものとなっている。これらのAIコントローラの解釈可能性の欠如は、AI対応CPS(AI-CPS)の安全性と品質保証に課題をもたらす。
論文参考訳（メタデータ） (2024-08-07T16:44:53Z)
Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文参考訳（メタデータ） (2024-05-14T13:37:36Z)
A Path Towards Legal Autonomy: An interoperable and explainable approach to extracting, transforming, loading and computing legal information using large language models, expert systems and Bayesian networks [2.2192488799070444]
法的な自律性は、開発者やデプロイ者、ユーザといったAIアクターに制約を課すこと、あるいはAIエージェントが環境に与える影響の範囲と範囲に制約を課すことによって達成できる。後者のアプローチでは、AI駆動デバイスに関する既存のルールを、それらのデバイスを制御するAIエージェントのソフトウェアにエンコードする。このようなアプローチの有効性は、説明可能かつ法的に相互運用可能な法的情報を抽出、ロード、変換、計算する手法を必要とするため、これは課題である。
論文参考訳（メタデータ） (2024-03-27T13:12:57Z)
Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文参考訳（メタデータ） (2024-03-09T21:07:16Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。業界の自己規制は重要な第一歩です。安全基準の最初のセットを提案する。
論文参考訳（メタデータ） (2023-07-06T17:03:25Z)
Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文参考訳（メタデータ） (2022-11-27T21:43:45Z)
Monitoring ROS2: from Requirements to Autonomous Robots [58.720142291102135]
本稿では,構造化自然言語で記述された要件から自律ロボットのランタイムモニタを生成するための形式的アプローチの概要について述べる。当社のアプローチでは,Fletal Requirement Elicitation Tool (FRET) とランタイム検証フレームワークであるCopilotを,Ogma統合ツールを通じて統合しています。
論文参考訳（メタデータ） (2022-09-28T12:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。