論文の概要: Detecting Adversarial Fine-tuning with Auditing Agents
- arxiv url: http://arxiv.org/abs/2510.16255v1
- Date: Fri, 17 Oct 2025 23:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.920121
- Title: Detecting Adversarial Fine-tuning with Auditing Agents
- Title(参考訳): 聴覚エージェントによる逆方向の微調整の検出
- Authors: Sarah Egler, John Schulman, Nicholas Carlini,
- Abstract要約: 本稿では, モデル展開前に有害な微調整を検知できることを実証し, 微調整監査エージェントの概念を紹介する。
文献からの8つの強力な微調整攻撃と5つの良質な微調整モデルに対する検出手法の評価を行った。
最も有望なのは、データセットの安全性評価とコンテンツモデレーションを回避する隠蔽暗号攻撃を検出することができることだ。
- 参考スコア(独自算出の注目度): 38.964973163076586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) providers expose fine-tuning APIs that let end users fine-tune their frontier LLMs. Unfortunately, it has been shown that an adversary with fine-tuning access to an LLM can bypass safeguards. Particularly concerning, such attacks may avoid detection with datasets that are only implicitly harmful. Our work studies robust detection mechanisms for adversarial use of fine-tuning APIs. We introduce the concept of a fine-tuning auditing agent and show it can detect harmful fine-tuning prior to model deployment. We provide our auditing agent with access to the fine-tuning dataset, as well as the fine-tuned and pre-fine-tuned models, and request the agent assigns a risk score for the fine-tuning job. We evaluate our detection approach on a diverse set of eight strong fine-tuning attacks from the literature, along with five benign fine-tuned models, totaling over 1400 independent audits. These attacks are undetectable with basic content moderation on the dataset, highlighting the challenge of the task. With the best set of affordances, our auditing agent achieves a 56.2% detection rate of adversarial fine-tuning at a 1% false positive rate. Most promising, the auditor is able to detect covert cipher attacks that evade safety evaluations and content moderation of the dataset. While benign fine-tuning with unintentional subtle safety degradation remains a challenge, we establish a baseline configuration for further work in this area. We release our auditing agent at https://github.com/safety-research/finetuning-auditor.
- Abstract(参考訳): 大規模言語モデル(LLM)プロバイダは、エンドユーザがフロンティアLLMを微調整できる、微調整のAPIを公開する。
残念なことに、LSMに微調整でアクセスする敵が安全ガードを回避できることが示されている。
特に、このような攻撃は暗黙的に有害なデータセットによる検出を避ける可能性がある。
我々の研究は、細調整APIの逆利用に対する堅牢な検出機構について研究している。
本稿では, モデル展開前に有害な微調整を検知できることを実証し, 微調整監査エージェントの概念を紹介する。
我々は、細調整データセットへのアクセスと、細調整済みおよび細調整済みのモデルを提供し、細調整ジョブにリスクスコアを割り当てるように要求する。
文献からの8つの強力な微調整攻撃と5つの良質な微調整モデルに対して,我々の検出アプローチを評価し,合計1400以上の独立監査を行った。
これらの攻撃はデータセットの基本的なコンテンツモデレーションによって検出できないため、タスクの課題が強調される。
最良値セットでは, 対人微調整の56.2%を偽陽性率1%で検出する。
最も有望なのは、データセットの安全性評価とコンテンツモデレーションを回避する隠蔽暗号攻撃を検出することができることだ。
意図しない微妙な安全性劣化を伴う良質な微調整は依然として課題であるが、この分野におけるさらなる作業のためのベースライン構成を確立する。
監査エージェントはhttps://github.com/safety-research/finetuning-auditor.comで公開しています。
関連論文リスト
- Towards Safeguarding LLM Fine-tuning APIs against Cipher Attacks [10.478976654618272]
敵は、モデルの安全性メカニズムをバイパスするために、大きな言語モデルの微調整APIを利用することができる。
モデル安全性を維持する防衛戦略の能力を評価するためのベンチマークであるCIFR(Cipher Fine-tuning Robustness benchmark)を紹介する。
プローブモニタは,99%以上の検出精度を達成し,未知の暗号変種や家族に一般化し,最先端のモニタリング手法と比較した。
論文 参考訳(メタデータ) (2025-08-23T22:55:15Z) - Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。
我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。
本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文 参考訳(メタデータ) (2025-06-20T17:57:12Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Hide in Plain Sight: Clean-Label Backdoor for Auditing Membership Inference [16.893873979953593]
本研究では,ステルスデータ監査のための新しいクリーンラベルバックドア方式を提案する。
我々のアプローチでは、ターゲットモデルの振る舞いを模倣するシャドウモデルによって生成される最適なトリガを用いる。
提案手法は,ブラックボックスアクセスによるロバストなデータ監査を可能にし,多様なデータセット間で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-11-24T20:56:18Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。