論文の概要: Towards Safeguarding LLM Fine-tuning APIs against Cipher Attacks
- arxiv url: http://arxiv.org/abs/2508.17158v1
- Date: Sat, 23 Aug 2025 22:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.374719
- Title: Towards Safeguarding LLM Fine-tuning APIs against Cipher Attacks
- Title(参考訳): LLMファインチューニングAPIの暗号攻撃対策に向けて
- Authors: Jack Youstra, Mohammed Mahfoud, Yang Yan, Henry Sleight, Ethan Perez, Mrinank Sharma,
- Abstract要約: 敵は、モデルの安全性メカニズムをバイパスするために、大きな言語モデルの微調整APIを利用することができる。
モデル安全性を維持する防衛戦略の能力を評価するためのベンチマークであるCIFR(Cipher Fine-tuning Robustness benchmark)を紹介する。
プローブモニタは,99%以上の検出精度を達成し,未知の暗号変種や家族に一般化し,最先端のモニタリング手法と比較した。
- 参考スコア(独自算出の注目度): 10.478976654618272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model fine-tuning APIs enable widespread model customization, yet pose significant safety risks. Recent work shows that adversaries can exploit access to these APIs to bypass model safety mechanisms by encoding harmful content in seemingly harmless fine-tuning data, evading both human monitoring and standard content filters. We formalize the fine-tuning API defense problem, and introduce the Cipher Fine-tuning Robustness benchmark (CIFR), a benchmark for evaluating defense strategies' ability to retain model safety in the face of cipher-enabled attackers while achieving the desired level of fine-tuning functionality. We include diverse cipher encodings and families, with some kept exclusively in the test set to evaluate for generalization across unseen ciphers and cipher families. We then evaluate different defenses on the benchmark and train probe monitors on model internal activations from multiple fine-tunes. We show that probe monitors achieve over 99% detection accuracy, generalize to unseen cipher variants and families, and compare favorably to state-of-the-art monitoring approaches. We open-source CIFR and the code to reproduce our experiments to facilitate further research in this critical area. Code and data are available online https://github.com/JackYoustra/safe-finetuning-api
- Abstract(参考訳): 大規模な言語モデルの微調整APIは、広範囲のモデルのカスタマイズを可能にするが、重大な安全性リスクを生じさせる。
近年の研究では、有害なコンテンツを無害な微調整データにエンコードし、人間の監視と標準コンテンツフィルタの両方を回避することで、これらのAPIへのアクセスを利用してモデルの安全性メカニズムを回避できることが示されている。
我々は、細調整のAPI防衛問題を定式化し、暗号対応攻撃者に対してモデル安全性を維持できる防衛戦略の能力を評価し、所望の細調整機能レベルを達成するためのベンチマークであるCIFR(Cipher Fine-tuning Robustness benchmark)を導入する。
さまざまな暗号エンコーディングやファミリーが含まれており、いくつかは未確認の暗号や暗号ファミリ間の一般化を評価するためのテストセットにのみ含まれています。
次に、複数の細管からモデル内部のアクティベーションに関するベンチマークとトレインプローブモニターの異なるディフェンスを評価する。
プローブモニタは,99%以上の検出精度を達成し,未知の暗号変種や家族に一般化し,最先端のモニタリング手法と比較した。
私たちはCIFRとコードをオープンソースにして、この重要な領域におけるさらなる研究を促進するために実験を再現しています。
コードとデータはオンライン https://github.com/JackYoustra/safe-finetuning-api で入手できる。
関連論文リスト
- SAFER: Probing Safety in Reward Models with Sparse Autoencoder [15.804171763844323]
拡張リワードモデル(textbfSAFER)のためのスパースオートエンコーダを提案する。
我々は、報酬モデルアクティベーションにおける人間解釈可能な特徴を明らかにし、安全関連意思決定の洞察を可能にする。
実験の結果、SAFERは最小限のデータ修正で精度を低下させるか、安全アライメントを強化することができる。
論文 参考訳(メタデータ) (2025-07-01T11:04:03Z) - FLSSM: A Federated Learning Storage Security Model with Homomorphic Encryption [8.782251974115818]
本稿では,フェデレート学習モデルのプライバシを保護するために,同型暗号化(FLSSM)を用いたフェデレーション学習ストレージセキュリティモデルを提案する。
複数の実世界のデータセットの実験により、我々のモデルは、効率とセキュリティの指標の両方でベースラインモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-15T11:33:14Z) - Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Let the Noise Speak: Harnessing Noise for a Unified Defense Against Adversarial and Backdoor Attacks [31.291700348439175]
機械学習に対する悪意のあるデータ操作攻撃は、安全クリティカルなアプリケーションにおける信頼性を損なう。
再建型侵入検知システムであるNoiSecを提案する。
NoiSecは、テスト入力からノイズを取り除き、ノイズから基礎となる特徴を抽出し、それらを活用して、システマティックな悪意のある操作を認識する。
論文 参考訳(メタデータ) (2024-06-18T21:44:51Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。