論文の概要: PRISM: A Design Framework for Open-Source Foundation Model Safety
- arxiv url: http://arxiv.org/abs/2406.10415v1
- Date: Fri, 14 Jun 2024 21:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:32:34.327393
- Title: PRISM: A Design Framework for Open-Source Foundation Model Safety
- Title(参考訳): PRISM: オープンソースファウンデーションモデル安全性のための設計フレームワーク
- Authors: Terrence Neumann, Bryan Jones,
- Abstract要約: 本稿では,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきか,という課題に対処する。
オープンソースファウンデーションモデル安全のための設計フレームワークであるPRISMを導入し、プライベート、ロバスト、インディペンデント安全対策を強調した。
PRISMは、個人や社会全体のリスクを最小限に抑えつつ、これらの強力な技術のポテンシャルを最大化する、より安全なオープンソースエコシステムを作ることを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of open-source foundation models has brought transparency and accessibility to this groundbreaking technology. However, this openness has also enabled the development of highly-capable, unsafe models, as exemplified by recent instances such as WormGPT and FraudGPT, which are specifically designed to facilitate criminal activity. As the capabilities of open foundation models continue to grow, potentially outpacing those of closed-source models, the risk of misuse by bad actors poses an increasingly serious threat to society. This paper addresses the critical question of how open foundation model developers should approach model safety in light of these challenges. Our analysis reveals that open-source foundation model companies often provide less restrictive acceptable use policies (AUPs) compared to their closed-source counterparts, likely due to the inherent difficulties in enforcing such policies once the models are released. To tackle this issue, we introduce PRISM, a design framework for open-source foundation model safety that emphasizes Private, Robust, Independent Safety measures, at Minimal marginal cost of compute. The PRISM framework proposes the use of modular functions that moderate prompts and outputs independently of the core language model, offering a more adaptable and resilient approach to safety compared to the brittle reinforcement learning methods currently used for value alignment. By focusing on identifying AUP violations and engaging the developer community in establishing consensus around safety design decisions, PRISM aims to create a safer open-source ecosystem that maximizes the potential of these powerful technologies while minimizing the risks to individuals and society as a whole.
- Abstract(参考訳): オープンソース基盤モデルの急速な進歩は、この画期的な技術に透明性とアクセシビリティをもたらした。
しかし、このオープン性は、犯罪活動を促進するために特別に設計されたWormGPTやFraudGPTといった最近の事例で実証されているように、高機能で安全でないモデルの開発を可能にした。
オープンファンデーションモデルの能力が成長し続け、クローズドソースモデルの能力を上回る可能性があるため、悪いアクターによる誤用のリスクは、社会にますます深刻な脅威をもたらす。
本稿では,これらの課題を踏まえて,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきかという批判的な疑問に対処する。
分析の結果,オープンソースファウンデーション・モデル企業は,オープンソース・モデルのリリース時にそのようなポリシーを施行することが本質的に困難であることから,オープン・ソース・モデルに比べて制約の少ない利用ポリシー(AUP)を提供することが多いことが判明した。
この問題に対処するために、PRISMはオープンソースのファンデーションモデル安全性のための設計フレームワークであり、最小限の計算コストでプライベート、ロバスト、独立安全対策を強調する。
PRISMフレームワークは、コア言語モデルとは独立してプロンプトと出力を適度に行うモジュール関数の使用を提案し、現在値アライメントに使われている脆弱な強化学習手法と比較して、より適応性が高く、安全性に優れたアプローチを提供する。
PRISMは、AUP違反の特定と、安全設計決定に関するコンセンサスを確立するための開発者コミュニティの関与に焦点を当てることで、これらの強力な技術の可能性を最大化しつつ、個人や社会全体のリスクを最小限にする、より安全なオープンソースエコシステムの構築を目指している。
関連論文リスト
- OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。
これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。
今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文 参考訳(メタデータ) (2024-12-10T01:30:32Z) - Position: On-Premises LLM Deployment Demands a Middle Path: Preserving Privacy Without Sacrificing Model Confidentiality [18.575663556525864]
ユーザ制御インフラストラクチャにクローズドソース LLM をデプロイすることで、データのプライバシが向上し、誤用リスクを軽減できる、と我々は主張する。
十分に設計されたオンプレミスデプロイメントでは、モデル盗難を防止することによって、モデルの機密性を保証し、プライバシ保護のカスタマイズを提供する必要がある。
私たちの調査結果は、プライバシと機密性が共存可能であることを示し、オンプレミスのAIデプロイメントをセキュアにする方法を確立しました。
論文 参考訳(メタデータ) (2024-10-15T02:00:36Z) - Towards Secure and Private AI: A Framework for Decentralized Inference [14.526663289437584]
大規模マルチモーダル基盤モデルは、スケーラビリティ、信頼性、潜在的な誤用に関する課題を提示する。
分散システムは、ワークロードの分散と障害の中心的なポイントの緩和によるソリューションを提供する。
これらの課題に対処するためには、AI開発に責任を負うように設計された包括的なフレームワークを使います。
論文 参考訳(メタデータ) (2024-07-28T05:09:17Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - On the Societal Impact of Open Foundation Models [93.67389739906561]
ここでは、広く利用可能なモデルウェイトを持つものとして定義されている、オープンファンデーションモデルに重点を置いています。
オープンファンデーションモデルの5つの特徴を識別し,その利点とリスクを両立させる。
論文 参考訳(メタデータ) (2024-02-27T16:49:53Z) - Open-Sourcing Highly Capable Foundation Models: An evaluation of risks,
benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。
本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-29T17:03:45Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。