論文の概要: Towards Provable (In)Secure Model Weight Release Schemes
- arxiv url: http://arxiv.org/abs/2506.19874v1
- Date: Mon, 23 Jun 2025 11:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.455717
- Title: Towards Provable (In)Secure Model Weight Release Schemes
- Title(参考訳): Provable (In)Secure Model Weight Release Schemeに向けて
- Authors: Xing Yang, Bingtao Wang, Yuhao Wang, Zimo Ji, Terry Jingchen Zhang, Wenyuan Jiang,
- Abstract要約: 最近のセキュアなウェイトリリーススキームは、モデルのオーナシップを保護し、誤用を防止しながら、オープンソースのモデル配布を可能にすると主張している。
これらのアプローチには厳格なセキュリティ基盤がなく、非公式なセキュリティ保証のみを提供する。
暗号の確立された研究に触発されて、いくつかの具体的なセキュリティ定義を導入することで、ウェイトリリーススキームのセキュリティを形式化する。
- 参考スコア(独自算出の注目度): 3.9127078661367447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent secure weight release schemes claim to enable open-source model distribution while protecting model ownership and preventing misuse. However, these approaches lack rigorous security foundations and provide only informal security guarantees. Inspired by established works in cryptography, we formalize the security of weight release schemes by introducing several concrete security definitions. We then demonstrate our definition's utility through a case study of TaylorMLP, a prominent secure weight release scheme. Our analysis reveals vulnerabilities that allow parameter extraction thus showing that TaylorMLP fails to achieve its informal security goals. We hope this work will advocate for rigorous research at the intersection of machine learning and security communities and provide a blueprint for how future weight release schemes should be designed and evaluated.
- Abstract(参考訳): 最近のセキュアなウェイトリリーススキームは、モデルのオーナシップを保護し、誤用を防止しながら、オープンソースのモデル配布を可能にすると主張している。
しかし、これらのアプローチには厳格なセキュリティ基盤がなく、非公式なセキュリティ保証のみを提供する。
暗号の確立された研究に触発されて、いくつかの具体的なセキュリティ定義を導入することで、ウェイトリリーススキームのセキュリティを形式化する。
そこで我々はTaylorMLPのケーススタディを通じて,この定義の実用性を実証する。
分析の結果,TaylorMLPは非公式なセキュリティ目標達成に失敗していることが明らかとなった。
この研究は、機械学習とセキュリティコミュニティの交差点における厳格な研究を提唱し、将来のウェイトリリース計画の設計と評価の青写真を提供することを期待している。
関連論文リスト
- Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Source-Replacement Model for Phase-Matching Quantum Key Distribution [0.40964539027092917]
直感的なソース置換モデルを用いて位相マッチングプロトコルのセキュリティについて検討する。
本手法の適用例として,ビーム分割攻撃方式を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。