論文の概要: PRISM: A Design Framework for Open-Source Foundation Model Safety
- arxiv url: http://arxiv.org/abs/2406.10415v1
- Date: Fri, 14 Jun 2024 21:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:32:34.327393
- Title: PRISM: A Design Framework for Open-Source Foundation Model Safety
- Title(参考訳): PRISM: オープンソースファウンデーションモデル安全性のための設計フレームワーク
- Authors: Terrence Neumann, Bryan Jones,
- Abstract要約: 本稿では,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきか,という課題に対処する。
オープンソースファウンデーションモデル安全のための設計フレームワークであるPRISMを導入し、プライベート、ロバスト、インディペンデント安全対策を強調した。
PRISMは、個人や社会全体のリスクを最小限に抑えつつ、これらの強力な技術のポテンシャルを最大化する、より安全なオープンソースエコシステムを作ることを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of open-source foundation models has brought transparency and accessibility to this groundbreaking technology. However, this openness has also enabled the development of highly-capable, unsafe models, as exemplified by recent instances such as WormGPT and FraudGPT, which are specifically designed to facilitate criminal activity. As the capabilities of open foundation models continue to grow, potentially outpacing those of closed-source models, the risk of misuse by bad actors poses an increasingly serious threat to society. This paper addresses the critical question of how open foundation model developers should approach model safety in light of these challenges. Our analysis reveals that open-source foundation model companies often provide less restrictive acceptable use policies (AUPs) compared to their closed-source counterparts, likely due to the inherent difficulties in enforcing such policies once the models are released. To tackle this issue, we introduce PRISM, a design framework for open-source foundation model safety that emphasizes Private, Robust, Independent Safety measures, at Minimal marginal cost of compute. The PRISM framework proposes the use of modular functions that moderate prompts and outputs independently of the core language model, offering a more adaptable and resilient approach to safety compared to the brittle reinforcement learning methods currently used for value alignment. By focusing on identifying AUP violations and engaging the developer community in establishing consensus around safety design decisions, PRISM aims to create a safer open-source ecosystem that maximizes the potential of these powerful technologies while minimizing the risks to individuals and society as a whole.
- Abstract(参考訳): オープンソース基盤モデルの急速な進歩は、この画期的な技術に透明性とアクセシビリティをもたらした。
しかし、このオープン性は、犯罪活動を促進するために特別に設計されたWormGPTやFraudGPTといった最近の事例で実証されているように、高機能で安全でないモデルの開発を可能にした。
オープンファンデーションモデルの能力が成長し続け、クローズドソースモデルの能力を上回る可能性があるため、悪いアクターによる誤用のリスクは、社会にますます深刻な脅威をもたらす。
本稿では,これらの課題を踏まえて,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきかという批判的な疑問に対処する。
分析の結果,オープンソースファウンデーション・モデル企業は,オープンソース・モデルのリリース時にそのようなポリシーを施行することが本質的に困難であることから,オープン・ソース・モデルに比べて制約の少ない利用ポリシー(AUP)を提供することが多いことが判明した。
この問題に対処するために、PRISMはオープンソースのファンデーションモデル安全性のための設計フレームワークであり、最小限の計算コストでプライベート、ロバスト、独立安全対策を強調する。
PRISMフレームワークは、コア言語モデルとは独立してプロンプトと出力を適度に行うモジュール関数の使用を提案し、現在値アライメントに使われている脆弱な強化学習手法と比較して、より適応性が高く、安全性に優れたアプローチを提供する。
PRISMは、AUP違反の特定と、安全設計決定に関するコンセンサスを確立するための開発者コミュニティの関与に焦点を当てることで、これらの強力な技術の可能性を最大化しつつ、個人や社会全体のリスクを最小限にする、より安全なオープンソースエコシステムの構築を目指している。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - On the Societal Impact of Open Foundation Models [93.67389739906561]
ここでは、広く利用可能なモデルウェイトを持つものとして定義されている、オープンファンデーションモデルに重点を置いています。
オープンファンデーションモデルの5つの特徴を識別し,その利点とリスクを両立させる。
論文 参考訳(メタデータ) (2024-02-27T16:49:53Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Open-Sourcing Highly Capable Foundation Models: An evaluation of risks,
benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。
本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-29T17:03:45Z) - Balancing Transparency and Risk: The Security and Privacy Risks of
Open-Source Machine Learning Models [31.658006126446175]
本稿では,オープンソースモデルの使用に伴う共通プライバシーとセキュリティの脅威について概観する。
これらの危険に対する認識を高めることで、私たちはAIシステムの責任と安全な利用を促進することに努めます。
論文 参考訳(メタデータ) (2023-08-18T11:59:15Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions [1.005130974691351]
我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。
我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
論文 参考訳(メタデータ) (2021-04-16T15:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。