論文の概要: The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
- arxiv url: http://arxiv.org/abs/2403.03218v1
- Date: Tue, 5 Mar 2024 18:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:43:44.742340
- Title: The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
- Title(参考訳): WMDPベンチマーク:アンラーニングによる悪用の測定と低減
- Authors: Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios,
Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan,
Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew
B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub
Tamirisa, Bhrugu Bharathi, Adam Khoja, Ariel Herbert-Voss, Cort B. Breuer,
Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Liu, Adam A. Hunt,
Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell
Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean
Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz,
Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Yan
Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang and Dan Hendrycks
- Abstract要約: ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
- 参考スコア(独自算出の注目度): 88.52401052489434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The White House Executive Order on Artificial Intelligence highlights the
risks of large language models (LLMs) empowering malicious actors in developing
biological, cyber, and chemical weapons. To measure these risks of malicious
use, government institutions and major AI labs are developing evaluations for
hazardous capabilities in LLMs. However, current evaluations are private,
preventing further research into mitigating risk. Furthermore, they focus on
only a few, highly specific pathways for malicious use. To fill these gaps, we
publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a
dataset of 4,157 multiple-choice questions that serve as a proxy measurement of
hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP
was developed by a consortium of academics and technical consultants, and was
stringently filtered to eliminate sensitive information prior to public
release. WMDP serves two roles: first, as an evaluation for hazardous knowledge
in LLMs, and second, as a benchmark for unlearning methods to remove such
hazardous knowledge. To guide progress on unlearning, we develop CUT, a
state-of-the-art unlearning method based on controlling model representations.
CUT reduces model performance on WMDP while maintaining general capabilities in
areas such as biology and computer science, suggesting that unlearning may be a
concrete path towards reducing malicious use from LLMs. We release our
benchmark and code publicly at https://wmdp.ai
- Abstract(参考訳): ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。
しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
さらに、悪意のある使用のための非常に特殊な経路にのみフォーカスする。
これらのギャップを埋めるため,我々は,バイオセキュリティ,サイバーセキュリティ,化学セキュリティに関する危険知識の指標として,4,157件のマルチチョイス質問のデータセットであるarms of mass destruction proxy(wmdp)ベンチマークを公開する。
WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。
wmdpは2つの役割を担っている: 第一に、llmsにおける危険知識の評価として、第二に、そのような危険知識を取り除くための学習方法のベンチマークとして。
未学習の進歩を導くために,モデル表現の制御に基づく最先端の未学習手法であるcutを開発した。
CUTは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させる。
ベンチマークとコードをhttps://wmdp.aiで公開しています。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Threats, Attacks, and Defenses in Machine Unlearning: A Survey [15.05662521329346]
マシン・アンラーニング(MU)は最近、安全なAIを実現する可能性についてかなりの注目を集めている。
この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T15:40:18Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting
the Risks and Vulnerabilities [50.31806287390321]
ロボットの動作を操作または誤操作することは容易であり、安全上の危険をもたらす。
我々のデータは、即時攻撃で21.2%、知覚攻撃で30.2%の平均的なパフォーマンス劣化を示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [67.38554763406098]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、安全を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - What Does the Bot Say? Opportunities and Risks of Large Language Models
in Social Media Bot Detection [51.46864805462009]
ソーシャルボット検出における大規模言語モデルの可能性とリスクについて検討する。
本稿では,多様なユーザ情報モダリティを分割し,克服するための混合異種エキスパートフレームワークを提案する。
実験により、1000の注釈付き例に対する命令チューニングは、最先端のベースラインよりも優れた特殊なLLMを生成することが示された。
論文 参考訳(メタデータ) (2024-02-01T06:21:19Z) - Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications [37.316238236750415]
LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
論文 参考訳(メタデータ) (2023-11-07T20:13:05Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Threat Assessment in Machine Learning based Systems [12.031113181911627]
我々は機械学習に基づくシステムに対して報告された脅威を実証研究する。
この研究は、MITREのATLASデータベース、AIインシデントデータベース、および文学からの89の現実世界のML攻撃シナリオに基づいている。
その結果,畳み込みニューラルネットワークは攻撃シナリオの中でも最も標的となるモデルの一つであることがわかった。
論文 参考訳(メタデータ) (2022-06-30T20:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。