論文の概要: Confidence-Building Measures for Artificial Intelligence: Workshop
Proceedings
- arxiv url: http://arxiv.org/abs/2308.00862v1
- Date: Tue, 1 Aug 2023 22:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 14:18:56.989200
- Title: Confidence-Building Measures for Artificial Intelligence: Workshop
Proceedings
- Title(参考訳): 人工知能の信頼性構築対策 : ワークショップの成果
- Authors: Sarah Shoker, Andrew Reddie, Sarah Barrington, Miles Brundage,
Husanjot Chahal, Michael Depp, Bill Drexel, Ritwik Gupta, Marina Favaro, Jake
Hecla, Alan Hickey, Margarita Konaev, Kirthi Kumar, Nathan Lambert, Andrew
Lohn, Cullen O'Keefe, Nazneen Rajani, Michael Sellitto, Robert Trager, Leah
Walker, Alexa Wehsener, Jessica Young
- Abstract要約: 財団のモデルは最終的に州の安全を損なうためのいくつかの経路を導入するかもしれない。
The Confidence-Building Measures for Artificial Intelligenceワークショップは、リスクを軽減するためのツールと戦略を検討するために、マルチステークホルダグループをまとめました。
CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。
- 参考スコア(独自算出の注目度): 3.130559276361345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models could eventually introduce several pathways for undermining
state security: accidents, inadvertent escalation, unintentional conflict, the
proliferation of weapons, and the interference with human diplomacy are just a
few on a long list. The Confidence-Building Measures for Artificial
Intelligence workshop hosted by the Geopolitics Team at OpenAI and the Berkeley
Risk and Security Lab at the University of California brought together a
multistakeholder group to think through the tools and strategies to mitigate
the potential risks introduced by foundation models to international security.
Originating in the Cold War, confidence-building measures (CBMs) are actions
that reduce hostility, prevent conflict escalation, and improve trust between
parties. The flexibility of CBMs make them a key instrument for navigating the
rapid changes in the foundation model landscape. Participants identified the
following CBMs that directly apply to foundation models and which are further
explained in this conference proceedings: 1. crisis hotlines 2. incident
sharing 3. model, transparency, and system cards 4. content provenance and
watermarks 5. collaborative red teaming and table-top exercises and 6. dataset
and evaluation sharing. Because most foundation model developers are
non-government entities, many CBMs will need to involve a wider stakeholder
community. These measures can be implemented either by AI labs or by relevant
government actors.
- Abstract(参考訳): 事故、不注意なエスカレーション、意図しない紛争、兵器の拡散、そして人間の外交への干渉は、長いリストの中でごくわずかである。
OpenAIのGeopolitics Teamとカリフォルニア大学バークレー校のBerkeley Risk and Security Labが主催する、人工知能のための信頼性構築対策ワークショップは、基礎モデルから国際的セキュリティへの潜在的なリスクを軽減するためのツールと戦略を通じて、マルチステークホルダーグループを結成した。
冷戦に起源を持つ信頼構築対策(CBM)は、敵意を減らし、対立のエスカレーションを防ぎ、当事者間の信頼を改善する行動である。
CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。
参加者は、ファンデーションモデルに直接適用される以下のCBMを特定し、この会議手続きでさらに説明する。
1.危機ホットライン
2.インシデント共有
3.モデル、透明性、システムカード
4.内容証明と透かし
5. 協力的レッドチームと卓上運動
6.データセットと評価共有
ほとんどの基礎モデル開発者は非政府組織であるため、多くのCBMはより広い利害関係者コミュニティを巻き込む必要がある。
これらの措置は、aiラボまたは関連する政府機関によって実施することができる。
関連論文リスト
- Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models [53.701148276912406]
Vision-Large-Language-models (VLMs) は自動運転において大きな応用可能性を持っている。
BadVLMDriverは、物理的オブジェクトを使用して実際に起動できる自動運転のためのVLMに対する最初のバックドア攻撃である。
BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。
論文 参考訳(メタデータ) (2024-04-19T14:40:38Z) - Symbiotic Game and Foundation Models for Cyber Deception Operations in Strategic Cyber Warfare [16.378537388284027]
私たちは現在、戦術の急速な進化、知性の非対称性の向上、ハッキングツールのアクセシビリティ向上など、前例のないサイバー戦争に直面しています。
本章は、サイバー詐欺戦術の分析、設計、実施におけるゲーム理論モデルと基礎モデル(FM)の重要な役割を強調することを目的とする。
論文 参考訳(メタデータ) (2024-03-14T20:17:57Z) - A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文 参考訳(メタデータ) (2024-03-07T20:55:08Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.55668851171251]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent
Reinforcement Learning Systems [42.67697578435527]
攻撃者は、被害者の脆弱性を迅速に利用し、敵のポリシーを生成することができ、特定のタスクで被害者の失敗につながる。
本研究では,被害者の部分的観察に制限された場合においても,攻撃者が敵の政策を生成できる能力を明らかにする。
我々は,部分観測可能性の影響を軽減するために,複数のサブゲームを構築するという概念を取り入れた新しいブラックボックス攻撃(SUB-PLAY)を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:18:16Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - Robustness Testing for Multi-Agent Reinforcement Learning: State
Perturbations on Critical Agents [2.5204420653245245]
MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。
本研究は,MARLのための新しいロバストネステストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-09T02:26:28Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial
Minority Influence [57.154716042854034]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z) - Cerberus: Exploring Federated Prediction of Security Events [21.261584854569893]
フェデレートラーニング(FL)による将来のセキュリティイベントの予測の可能性について検討する。
我々は、参加する組織に対して、リカレントニューラルネットワーク(RNN)モデルの協調トレーニングを可能にするシステムであるCerberusを紹介する。
論文 参考訳(メタデータ) (2022-09-07T10:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。