論文の概要: Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising
- arxiv url: http://arxiv.org/abs/2503.17198v1
- Date: Fri, 21 Mar 2025 14:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:10.481129
- Title: Jailbreaking the Non-Transferable Barrier via Test-Time Data Disguising
- Title(参考訳): テスト時間データを利用した非搬送バリアの脱獄
- Authors: Yongli Xiang, Ziming Hong, Lina Yao, Dadong Wang, Tongliang Liu,
- Abstract要約: そこで本研究では,テストタイムデータの拡散による非伝達障壁をジェイルブレイクするための新しい攻撃手法(JailNTL)を提案する。
JailNTLは、1%の認証サンプルを使用して、認証されていないドメインで最大55.7%の精度向上を達成する。
- 参考スコア(独自算出の注目度): 56.60654450123728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-transferable learning (NTL) has been proposed to protect model intellectual property (IP) by creating a "non-transferable barrier" to restrict generalization from authorized to unauthorized domains. Recently, well-designed attack, which restores the unauthorized-domain performance by fine-tuning NTL models on few authorized samples, highlights the security risks of NTL-based applications. However, such attack requires modifying model weights, thus being invalid in the black-box scenario. This raises a critical question: can we trust the security of NTL models deployed as black-box systems? In this work, we reveal the first loophole of black-box NTL models by proposing a novel attack method (dubbed as JailNTL) to jailbreak the non-transferable barrier through test-time data disguising. The main idea of JailNTL is to disguise unauthorized data so it can be identified as authorized by the NTL model, thereby bypassing the non-transferable barrier without modifying the NTL model weights. Specifically, JailNTL encourages unauthorized-domain disguising in two levels, including: (i) data-intrinsic disguising (DID) for eliminating domain discrepancy and preserving class-related content at the input-level, and (ii) model-guided disguising (MGD) for mitigating output-level statistics difference of the NTL model. Empirically, when attacking state-of-the-art (SOTA) NTL models in the black-box scenario, JailNTL achieves an accuracy increase of up to 55.7% in the unauthorized domain by using only 1% authorized samples, largely exceeding existing SOTA white-box attacks.
- Abstract(参考訳): 非伝達性学習(NTL)は、認可されたドメインから許可されていないドメインへの一般化を制限する「非伝達性バリア」を作成することにより、モデル知的財産権(IP)を保護するために提案されている。
近年,NTLモデルに微調整を施すことで,未承認領域のパフォーマンスを回復させる,よく設計された攻撃は,NTLベースのアプリケーションのセキュリティリスクを浮き彫りにしている。
しかし、そのような攻撃はモデルウェイトを変更する必要があり、ブラックボックスのシナリオでは無効になる。
ブラックボックスシステムとしてデプロイされたNTLモデルのセキュリティを信頼できますか?
本研究では,新しい攻撃法(JailNTLと呼ばれる)を提案して,テスト時間データの拡散による非伝達障壁をジェイルブレイクすることによる,ブラックボックスNTLモデルの最初の抜け穴を明らかにする。
JailNTLの主な考え方は、不正なデータを偽装して、NTLモデルによって認証されたものとして識別し、NTLモデルの重みを変更することなく、転送不能な障壁をバイパスすることである。
具体的には、JailNTLは、以下の2つのレベルにおいて、権限のないドメインの拡散を奨励する。
一 ドメインの相違をなくし、入力レベルでクラス関連コンテンツを保存するためのデータ内在化(DID)
(2)NTLモデルの出力レベル統計差を緩和するためのモデル誘導測位(MGD)。
経験的に、最先端(SOTA)のNTLモデルをブラックボックスのシナリオで攻撃するとき、JailNTLは、認証済みの1%のサンプルを使用して、既存のSOTAホワイトボックス攻撃を上回る精度を55.7%まで向上させる。
関連論文リスト
- Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints [81.14852921721793]
本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。
本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。
提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
論文 参考訳(メタデータ) (2025-02-25T07:47:41Z) - Toward Robust Non-Transferable Learning: A Survey and Benchmark [51.52542476904985]
非伝達学習(NTL)は、ディープラーニングモデルの一般化能力を再構築することを目的とした課題である。
NTLの性能とロバスト性を評価する最初のベンチマークであるNTLBenchを紹介する。
我々はNTLの実践的応用と今後の方向性と課題について論じる。
論文 参考訳(メタデータ) (2025-02-19T10:12:19Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs [9.312913540732445]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすいことが示されている。
ジェイルブレイクはサイバー犯罪者やブラックハット俳優によって悪用され、重大な被害を受けている。
制御されたテキスト生成と「ナッジ」を組み合わせた新しいセーフガード「SafeNudge」を導入する。
論文 参考訳(メタデータ) (2025-01-02T15:15:38Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - Robust and Lossless Fingerprinting of Deep Neural Networks via Pooled
Membership Inference [17.881686153284267]
ディープニューラルネットワーク(DNN)は、すでに多くのアプリケーション分野で大きな成功を収めており、私たちの社会に大きな変化をもたらしています。
DNNの知的財産権(IP)を侵害から保護する方法は、最も重要かつ非常に困難なトピックの1つである。
本稿では,DNNモデルのIPを保護するために,Emphpooled Memberation Inference (PMI) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-09T04:06:29Z) - PCPT and ACPT: Copyright Protection and Traceability Scheme for DNN
Models [13.043683635373213]
ディープニューラルネットワーク(DNN)は人工知能(AI)分野で大きな成功を収めている。
DNNモデルは、簡単に違法にコピーしたり、再配布したり、犯罪者に虐待されたりすることができる。
論文 参考訳(メタデータ) (2022-06-06T12:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。