Fugu-MT 論文翻訳(概要): PRISM: A Design Framework for Open-Source Foundation Model Safety

論文の概要: PRISM: A Design Framework for Open-Source Foundation Model Safety

arxiv url: http://arxiv.org/abs/2406.10415v1
Date: Fri, 14 Jun 2024 21:26:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 00:32:34.327393
Title: PRISM: A Design Framework for Open-Source Foundation Model Safety
Title（参考訳）: PRISM: オープンソースファウンデーションモデル安全性のための設計フレームワーク
Authors: Terrence Neumann, Bryan Jones,
Abstract要約: 本稿では,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきか,という課題に対処する。オープンソースファウンデーションモデル安全のための設計フレームワークであるPRISMを導入し、プライベート、ロバスト、インディペンデント安全対策を強調した。 PRISMは、個人や社会全体のリスクを最小限に抑えつつ、これらの強力な技術のポテンシャルを最大化する、より安全なオープンソースエコシステムを作ることを目指している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of open-source foundation models has brought transparency and accessibility to this groundbreaking technology. However, this openness has also enabled the development of highly-capable, unsafe models, as exemplified by recent instances such as WormGPT and FraudGPT, which are specifically designed to facilitate criminal activity. As the capabilities of open foundation models continue to grow, potentially outpacing those of closed-source models, the risk of misuse by bad actors poses an increasingly serious threat to society. This paper addresses the critical question of how open foundation model developers should approach model safety in light of these challenges. Our analysis reveals that open-source foundation model companies often provide less restrictive acceptable use policies (AUPs) compared to their closed-source counterparts, likely due to the inherent difficulties in enforcing such policies once the models are released. To tackle this issue, we introduce PRISM, a design framework for open-source foundation model safety that emphasizes Private, Robust, Independent Safety measures, at Minimal marginal cost of compute. The PRISM framework proposes the use of modular functions that moderate prompts and outputs independently of the core language model, offering a more adaptable and resilient approach to safety compared to the brittle reinforcement learning methods currently used for value alignment. By focusing on identifying AUP violations and engaging the developer community in establishing consensus around safety design decisions, PRISM aims to create a safer open-source ecosystem that maximizes the potential of these powerful technologies while minimizing the risks to individuals and society as a whole.
Abstract（参考訳）: オープンソース基盤モデルの急速な進歩は、この画期的な技術に透明性とアクセシビリティをもたらした。しかし、このオープン性は、犯罪活動を促進するために特別に設計されたWormGPTやFraudGPTといった最近の事例で実証されているように、高機能で安全でないモデルの開発を可能にした。オープンファンデーションモデルの能力が成長し続け、クローズドソースモデルの能力を上回る可能性があるため、悪いアクターによる誤用のリスクは、社会にますます深刻な脅威をもたらす。本稿では,これらの課題を踏まえて,オープンファンデーションモデル開発者がモデル安全性にどのようにアプローチすべきかという批判的な疑問に対処する。分析の結果,オープンソースファウンデーション・モデル企業は,オープンソース・モデルのリリース時にそのようなポリシーを施行することが本質的に困難であることから,オープン・ソース・モデルに比べて制約の少ない利用ポリシー(AUP)を提供することが多いことが判明した。この問題に対処するために、PRISMはオープンソースのファンデーションモデル安全性のための設計フレームワークであり、最小限の計算コストでプライベート、ロバスト、独立安全対策を強調する。 PRISMフレームワークは、コア言語モデルとは独立してプロンプトと出力を適度に行うモジュール関数の使用を提案し、現在値アライメントに使われている脆弱な強化学習手法と比較して、より適応性が高く、安全性に優れたアプローチを提供する。 PRISMは、AUP違反の特定と、安全設計決定に関するコンセンサスを確立するための開発者コミュニティの関与に焦点を当てることで、これらの強力な技術の可能性を最大化しつつ、個人や社会全体のリスクを最小限にする、より安全なオープンソースエコシステムの構築を目指している。

関連論文リスト

SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。 SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-26T14:50:01Z)
Mitigating Cyber Risk in the Age of Open-Weight LLMs: Policy Gaps and Technical Realities [0.0]
オープンウェイト汎用AI(GPAI)モデルには大きなメリットがあるが、重大なサイバーセキュリティリスクも伴う。本稿では、オープンウェイトAIリリースによって拡大した、マルウェア開発とソーシャルエンジニアリングの強化を含む、特定の脅威を分析する。本稿では,モデル全体ではなく,特定のハイリスク機能の評価と制御に重点を置く経路を提案する。
論文参考訳（メタデータ） (2025-05-21T11:35:52Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文参考訳（メタデータ） (2024-12-21T18:04:31Z)
On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文参考訳（メタデータ） (2024-12-10T01:30:32Z)
Position: On-Premises LLM Deployment Demands a Middle Path: Preserving Privacy Without Sacrificing Model Confidentiality [18.575663556525864]
ユーザ制御インフラストラクチャにクローズドソース LLM をデプロイすることで、データのプライバシが向上し、誤用リスクを軽減できる、と我々は主張する。十分に設計されたオンプレミスデプロイメントでは、モデル盗難を防止することによって、モデルの機密性を保証し、プライバシ保護のカスタマイズを提供する必要がある。私たちの調査結果は、プライバシと機密性が共存可能であることを示し、オンプレミスのAIデプロイメントをセキュアにする方法を確立しました。
論文参考訳（メタデータ） (2024-10-15T02:00:36Z)
Towards Secure and Private AI: A Framework for Decentralized Inference [14.526663289437584]
大規模マルチモーダル基盤モデルは、スケーラビリティ、信頼性、潜在的な誤用に関する課題を提示する。分散システムは、ワークロードの分散と障害の中心的なポイントの緩和によるソリューションを提供する。これらの課題に対処するためには、AI開発に責任を負うように設計された包括的なフレームワークを使います。
論文参考訳（メタデータ） (2024-07-28T05:09:17Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文参考訳（メタデータ） (2024-02-29T16:37:08Z)
On the Societal Impact of Open Foundation Models [93.67389739906561]
ここでは、広く利用可能なモデルウェイトを持つものとして定義されている、オープンファンデーションモデルに重点を置いています。オープンファンデーションモデルの5つの特徴を識別し,その利点とリスクを両立させる。
論文参考訳（メタデータ） (2024-02-27T16:49:53Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Open-Sourcing Highly Capable Foundation Models: An evaluation of risks, benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文参考訳（メタデータ） (2023-09-29T17:03:45Z)
Balancing Transparency and Risk: The Security and Privacy Risks of Open-Source Machine Learning Models [31.658006126446175]
本稿では,オープンソースモデルの使用に伴う共通プライバシーとセキュリティの脅威について概観する。これらの危険に対する認識を高めることで、私たちはAIシステムの責任と安全な利用を促進することに努めます。
論文参考訳（メタデータ） (2023-08-18T11:59:15Z)
Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文参考訳（メタデータ） (2022-11-27T21:43:45Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Safe Exploration in Model-based Reinforcement Learning using Control Barrier Functions [1.005130974691351]
我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
論文参考訳（メタデータ） (2021-04-16T15:29:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。