論文の概要: Confidence-Building Measures for Artificial Intelligence: Workshop
Proceedings
- arxiv url: http://arxiv.org/abs/2308.00862v2
- Date: Thu, 3 Aug 2023 20:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:24:06.756943
- Title: Confidence-Building Measures for Artificial Intelligence: Workshop
Proceedings
- Title(参考訳): 人工知能の信頼性構築対策 : ワークショップの成果
- Authors: Sarah Shoker, Andrew Reddie, Sarah Barrington, Ruby Booth, Miles
Brundage, Husanjot Chahal, Michael Depp, Bill Drexel, Ritwik Gupta, Marina
Favaro, Jake Hecla, Alan Hickey, Margarita Konaev, Kirthi Kumar, Nathan
Lambert, Andrew Lohn, Cullen O'Keefe, Nazneen Rajani, Michael Sellitto,
Robert Trager, Leah Walker, Alexa Wehsener, Jessica Young
- Abstract要約: 財団のモデルは最終的に州の安全を損なうためのいくつかの経路を導入するかもしれない。
The Confidence-Building Measures for Artificial Intelligenceワークショップは、リスクを軽減するためのツールと戦略を検討するために、マルチステークホルダグループをまとめました。
CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。
- 参考スコア(独自算出の注目度): 3.090253451409658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models could eventually introduce several pathways for undermining
state security: accidents, inadvertent escalation, unintentional conflict, the
proliferation of weapons, and the interference with human diplomacy are just a
few on a long list. The Confidence-Building Measures for Artificial
Intelligence workshop hosted by the Geopolitics Team at OpenAI and the Berkeley
Risk and Security Lab at the University of California brought together a
multistakeholder group to think through the tools and strategies to mitigate
the potential risks introduced by foundation models to international security.
Originating in the Cold War, confidence-building measures (CBMs) are actions
that reduce hostility, prevent conflict escalation, and improve trust between
parties. The flexibility of CBMs make them a key instrument for navigating the
rapid changes in the foundation model landscape. Participants identified the
following CBMs that directly apply to foundation models and which are further
explained in this conference proceedings: 1. crisis hotlines 2. incident
sharing 3. model, transparency, and system cards 4. content provenance and
watermarks 5. collaborative red teaming and table-top exercises and 6. dataset
and evaluation sharing. Because most foundation model developers are
non-government entities, many CBMs will need to involve a wider stakeholder
community. These measures can be implemented either by AI labs or by relevant
government actors.
- Abstract(参考訳): 事故、不注意なエスカレーション、意図しない紛争、兵器の拡散、そして人間の外交への干渉は、長いリストの中でごくわずかである。
OpenAIのGeopolitics Teamとカリフォルニア大学バークレー校のBerkeley Risk and Security Labが主催する、人工知能のための信頼性構築対策ワークショップは、基礎モデルから国際的セキュリティへの潜在的なリスクを軽減するためのツールと戦略を通じて、マルチステークホルダーグループを結成した。
冷戦に起源を持つ信頼構築対策(CBM)は、敵意を減らし、対立のエスカレーションを防ぎ、当事者間の信頼を改善する行動である。
CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。
参加者は、ファンデーションモデルに直接適用される以下のCBMを特定し、この会議手続きでさらに説明する。
1.危機ホットライン
2.インシデント共有
3.モデル、透明性、システムカード
4.内容証明と透かし
5. 協力的レッドチームと卓上運動
6.データセットと評価共有
ほとんどの基礎モデル開発者は非政府組織であるため、多くのCBMはより広い利害関係者コミュニティを巻き込む必要がある。
これらの措置は、aiラボまたは関連する政府機関によって実施することができる。
関連論文リスト
- Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Mind the Gap: Foundation Models and the Covert Proliferation of Military Intelligence, Surveillance, and Targeting [0.0]
我々は、個人識別可能な情報がISTAR能力に寄与するのを防ぐことができないことが、敵による軍事AI技術の使用と普及に繋がることを示した。
我々は、軍事システムを確保し、AI兵器の普及を制限するためには、軍用AIシステムと個人データを商業基盤モデルから絶縁する必要があると結論付けている。
論文 参考訳(メタデータ) (2024-10-18T19:04:30Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - The GPT Dilemma: Foundation Models and the Shadow of Dual-Use [0.0]
本稿では、基礎モデルの二重利用課題と、国際安全保障に影響を及ぼすリスクについて検討する。
本稿では,基礎モデルの開発サイクルにおいて,モデル入力,機能,システム利用事例,システム展開の4つの重要な要因を分析した。
本稿では、中距離原子力軍(INF)条約をケーススタディとして、関連するリスクを軽減するためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-07-29T22:36:27Z) - Symbiotic Game and Foundation Models for Cyber Deception Operations in Strategic Cyber Warfare [16.378537388284027]
私たちは現在、戦術の急速な進化、知性の非対称性の向上、ハッキングツールのアクセシビリティ向上など、前例のないサイバー戦争に直面しています。
本章は、サイバー詐欺戦術の分析、設計、実施におけるゲーム理論モデルと基礎モデル(FM)の重要な役割を強調することを目的とする。
論文 参考訳(メタデータ) (2024-03-14T20:17:57Z) - A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文 参考訳(メタデータ) (2024-03-07T20:55:08Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - Cerberus: Exploring Federated Prediction of Security Events [21.261584854569893]
フェデレートラーニング(FL)による将来のセキュリティイベントの予測の可能性について検討する。
我々は、参加する組織に対して、リカレントニューラルネットワーク(RNN)モデルの協調トレーニングを可能にするシステムであるCerberusを紹介する。
論文 参考訳(メタデータ) (2022-09-07T10:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。