論文の概要: Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising
- arxiv url: http://arxiv.org/abs/2503.17198v1
- Date: Fri, 21 Mar 2025 14:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:38.445041
- Title: Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising
- Title(参考訳): テスト時間データを利用した非搬送バリアの脱獄
- Authors: Yongli Xiang, Ziming Hong, Lina Yao, Dadong Wang, Tongliang Liu,
- Abstract要約: そこで本研究では,テストタイムデータの拡散による非伝達障壁をジェイルブレイクするための新しい攻撃手法(JailNTL)を提案する。
JailNTLは、1%の認証サンプルを使用して、認証されていないドメインで最大55.7%の精度向上を達成する。
- 参考スコア(独自算出の注目度): 56.60654450123728
- License:
- Abstract: Non-transferable learning (NTL) has been proposed to protect model intellectual property (IP) by creating a "non-transferable barrier" to restrict generalization from authorized to unauthorized domains. Recently, well-designed attack, which restores the unauthorized-domain performance by fine-tuning NTL models on few authorized samples, highlights the security risks of NTL-based applications. However, such attack requires modifying model weights, thus being invalid in the black-box scenario. This raises a critical question: can we trust the security of NTL models deployed as black-box systems? In this work, we reveal the first loophole of black-box NTL models by proposing a novel attack method (dubbed as JailNTL) to jailbreak the non-transferable barrier through test-time data disguising. The main idea of JailNTL is to disguise unauthorized data so it can be identified as authorized by the NTL model, thereby bypassing the non-transferable barrier without modifying the NTL model weights. Specifically, JailNTL encourages unauthorized-domain disguising in two levels, including: (i) data-intrinsic disguising (DID) for eliminating domain discrepancy and preserving class-related content at the input-level, and (ii) model-guided disguising (MGD) for mitigating output-level statistics difference of the NTL model. Empirically, when attacking state-of-the-art (SOTA) NTL models in the black-box scenario, JailNTL achieves an accuracy increase of up to 55.7% in the unauthorized domain by using only 1% authorized samples, largely exceeding existing SOTA white-box attacks.
- Abstract(参考訳): 非伝達性学習(NTL)は、認可されたドメインから許可されていないドメインへの一般化を制限する「非伝達性バリア」を作成することにより、モデル知的財産権(IP)を保護するために提案されている。
近年,NTLモデルに微調整を施すことで,未承認領域のパフォーマンスを回復させる,よく設計された攻撃は,NTLベースのアプリケーションのセキュリティリスクを浮き彫りにしている。
しかし、そのような攻撃はモデルウェイトを変更する必要があり、ブラックボックスのシナリオでは無効になる。
ブラックボックスシステムとしてデプロイされたNTLモデルのセキュリティを信頼できますか?
本研究では,新しい攻撃法(JailNTLと呼ばれる)を提案して,テスト時間データの拡散による非伝達障壁をジェイルブレイクすることによる,ブラックボックスNTLモデルの最初の抜け穴を明らかにする。
JailNTLの主な考え方は、不正なデータを偽装して、NTLモデルによって認証されたものとして識別し、NTLモデルの重みを変更することなく、転送不能な障壁をバイパスすることである。
具体的には、JailNTLは、以下の2つのレベルにおいて、権限のないドメインの拡散を奨励する。
一 ドメインの相違をなくし、入力レベルでクラス関連コンテンツを保存するためのデータ内在化(DID)
(2)NTLモデルの出力レベル統計差を緩和するためのモデル誘導測位(MGD)。
経験的に、最先端(SOTA)のNTLモデルをブラックボックスのシナリオで攻撃するとき、JailNTLは、認証済みの1%のサンプルを使用して、既存のSOTAホワイトボックス攻撃を上回る精度を55.7%まで向上させる。
関連論文リスト
- Toward Robust Non-Transferable Learning: A Survey and Benchmark [51.52542476904985]
非伝達学習(NTL)は、ディープラーニングモデルの一般化能力を再構築することを目的とした課題である。
NTLの性能とロバスト性を評価する最初のベンチマークであるNTLBenchを紹介する。
我々はNTLの実践的応用と今後の方向性と課題について論じる。
論文 参考訳(メタデータ) (2025-02-19T10:12:19Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs [9.312913540732445]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすいことが示されている。
ジェイルブレイクはサイバー犯罪者やブラックハット俳優によって悪用され、重大な被害を受けている。
制御されたテキスト生成と「ナッジ」を組み合わせた新しいセーフガード「SafeNudge」を導入する。
論文 参考訳(メタデータ) (2025-01-02T15:15:38Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - Securing Graph Neural Networks in MLaaS: A Comprehensive Realization of Query-based Integrity Verification [68.86863899919358]
我々は機械学習におけるGNNモデルをモデル中心の攻撃から保護するための画期的なアプローチを導入する。
提案手法は,GNNの完全性に対する包括的検証スキーマを含み,トランスダクティブとインダクティブGNNの両方を考慮している。
本稿では,革新的なノード指紋生成アルゴリズムを組み込んだクエリベースの検証手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T03:17:05Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Robust and Lossless Fingerprinting of Deep Neural Networks via Pooled
Membership Inference [17.881686153284267]
ディープニューラルネットワーク(DNN)は、すでに多くのアプリケーション分野で大きな成功を収めており、私たちの社会に大きな変化をもたらしています。
DNNの知的財産権(IP)を侵害から保護する方法は、最も重要かつ非常に困難なトピックの1つである。
本稿では,DNNモデルのIPを保護するために,Emphpooled Memberation Inference (PMI) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-09T04:06:29Z) - PCPT and ACPT: Copyright Protection and Traceability Scheme for DNN
Models [13.043683635373213]
ディープニューラルネットワーク(DNN)は人工知能(AI)分野で大きな成功を収めている。
DNNモデルは、簡単に違法にコピーしたり、再配布したり、犯罪者に虐待されたりすることができる。
論文 参考訳(メタデータ) (2022-06-06T12:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。