論文の概要: Coordinated pausing: An evaluation-based coordination scheme for
frontier AI developers
- arxiv url: http://arxiv.org/abs/2310.00374v1
- Date: Sat, 30 Sep 2023 13:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:38:48.821456
- Title: Coordinated pausing: An evaluation-based coordination scheme for
frontier AI developers
- Title(参考訳): Coordinated Pausing:フロンティアAI開発者のための評価に基づくコーディネーションスキーム
- Authors: Jide Alaga and Jonas Schuett
- Abstract要約: 本稿では,コーディネート・パジング (coorated pausing) について述べる。
5つの主要なステップからなる評価に基づくコーディネーション方式を提案する。
コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。
- 参考スコア(独自算出の注目度): 0.2913760942403036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) models are scaled up, new capabilities can
emerge unintentionally and unpredictably, some of which might be dangerous. In
response, dangerous capabilities evaluations have emerged as a new risk
assessment tool. But what should frontier AI developers do if sufficiently
dangerous capabilities are in fact discovered? This paper focuses on one
possible response: coordinated pausing. It proposes an evaluation-based
coordination scheme that consists of five main steps: (1) Frontier AI models
are evaluated for dangerous capabilities. (2) Whenever, and each time, a model
fails a set of evaluations, the developer pauses certain research and
development activities. (3) Other developers are notified whenever a model with
dangerous capabilities has been discovered. They also pause related research
and development activities. (4) The discovered capabilities are analyzed and
adequate safety precautions are put in place. (5) Developers only resume their
paused activities if certain safety thresholds are reached. The paper also
discusses four concrete versions of that scheme. In the first version, pausing
is completely voluntary and relies on public pressure on developers. In the
second version, participating developers collectively agree to pause under
certain conditions. In the third version, a single auditor evaluates models of
multiple developers who agree to pause if any model fails a set of evaluations.
In the fourth version, developers are legally required to run evaluations and
pause if dangerous capabilities are discovered. Finally, the paper discusses
the desirability and feasibility of our proposed coordination scheme. It
concludes that coordinated pausing is a promising mechanism for tackling
emerging risks from frontier AI models. However, a number of practical and
legal obstacles need to be overcome, especially how to avoid violations of
antitrust law.
- Abstract(参考訳): 人工知能(AI)モデルがスケールアップされるにつれて、新しい機能は意図せず、予測不能に出現する可能性がある。
これに対し、新たなリスク評価ツールとして、危険な能力評価が登場している。
しかし、十分に危険な能力が発見されれば、フロンティアai開発者は何をするべきか?
本稿では, 1 つの可能な応答について考察する。
1)フロンティアAIモデルは危険な能力に対して評価される。
2) モデルが評価のセットに失敗するたびに、開発者は特定の研究や開発活動を一時停止する。
(3) 危険な機能を持つモデルが発見されたら、他の開発者に通知する。
また、研究・開発活動も停止した。
(4) 検出した能力を分析し, 適切な安全対策を行う。
(5) 一定の安全閾値に達した場合のみ、開発者は停止したアクティビティを再開する。
論文は、そのスキームの4つの具体的なバージョンについても論じている。
最初のバージョンでは、パウジングは完全に自発的であり、開発者への圧力に依存している。
第2バージョンでは、参加する開発者は、特定の条件下で一時停止することに同意している。
第3のバージョンでは、1つの監査官が、モデルが一連の評価に失敗した場合、一時停止に同意した複数の開発者のモデルを評価する。
4番目のバージョンでは、開発者は法的に評価を実行し、危険な能力が見つかった場合停止する必要がある。
最後に,提案する協調方式の望ましさと実現可能性について述べる。
コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。
しかし、特に反トラスト法違反を避けるには、多くの実践的および法的障害を克服する必要がある。
関連論文リスト
- Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - AI Sandbagging: Language Models can Strategically Underperform on Evaluations [1.0485739694839669]
トラストロックされたAIシステムは、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、サンドバッグ評価のためのインセンティブを持つかもしれない。
性能評価がサンドバッグに弱いことを示す。
論文 参考訳(メタデータ) (2024-06-11T15:26:57Z) - Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文 参考訳(メタデータ) (2024-03-20T17:54:26Z) - A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文 参考訳(メタデータ) (2024-03-07T20:55:08Z) - Deployment Corrections: An incident response framework for frontier AI
models [0.0]
本稿では,デプロイ前リスク管理が不十分な場合の緊急計画について検討する。
危険な機能に対応するためにAI開発者が使用できるデプロイメント修正ツールキットについて説明する。
私たちは、フロンティアAI開発者、標準設定組織、そして規制当局が協力して標準化された業界全体のアプローチを定義することを推奨します。
論文 参考訳(メタデータ) (2023-09-30T10:07:39Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。