Fugu-MT 論文翻訳(概要): Fundamental Limitations in Defending LLM Finetuning APIs

論文の概要: Fundamental Limitations in Defending LLM Finetuning APIs

arxiv url: http://arxiv.org/abs/2502.14828v1
Date: Thu, 20 Feb 2025 18:45:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.820865
Title: Fundamental Limitations in Defending LLM Finetuning APIs
Title（参考訳）: LLMファインタニング用APIの基礎的限界
Authors: Xander Davies, Eric Winsor, Tomek Korbak, Alexandra Souly, Robert Kirk, Christian Schroeder de Witt, Yarin Gal,
Abstract要約: 細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。 OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
参考スコア（独自算出の注目度）: 61.29028411001255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM developers have imposed technical interventions to prevent fine-tuning misuse attacks, attacks where adversaries evade safeguards by fine-tuning the model using a public API. Previous work has established several successful attacks against specific fine-tuning API defences. In this work, we show that defences of fine-tuning APIs that seek to detect individual harmful training or inference samples ('pointwise' detection) are fundamentally limited in their ability to prevent fine-tuning attacks. We construct 'pointwise-undetectable' attacks that repurpose entropy in benign model outputs (e.g. semantic or syntactic variations) to covertly transmit dangerous knowledge. Our attacks are composed solely of unsuspicious benign samples that can be collected from the model before fine-tuning, meaning training and inference samples are all individually benign and low-perplexity. We test our attacks against the OpenAI fine-tuning API, finding they succeed in eliciting answers to harmful multiple-choice questions, and that they evade an enhanced monitoring system we design that successfully detects other fine-tuning attacks. We encourage the community to develop defences that tackle the fundamental limitations we uncover in pointwise fine-tuning API defences.
Abstract（参考訳）: LLM開発者は、不正使用の微調整を防ぐために技術的な介入を課しており、敵がパブリックAPIを使用してモデルを微調整することで、安全を回避している。これまでの作業は、特定の微調整のAPIディフェンスに対するいくつかの攻撃を成功に導いてきた。本研究では,個別の有害なトレーニングや推論サンプル(「ポイントワイド」検出)の検出を目的とした細調整APIの防御が,微調整攻撃を防止する能力に根本的に制限されていることを示す。我々は、危険知識を隠蔽的に伝達するために、良性モデル出力(例えば、セマンティクスや構文変化)のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。我々の攻撃は、微調整の前にモデルから収集できる無意味な良性サンプルのみで構成されており、訓練と推論のサンプルは、すべて個別に良性であり、難易度は低い。私たちは、OpenAIの微調整APIに対する攻撃をテストし、有害な複数項目の質問に対する回答を導き出すことに成功し、他の微調整攻撃を正常に検出する監視システムを設計することを避けました。私たちは、ポイントワイズしたAPIディフェンスで明らかになった基本的な制限に対処する防衛を開発することをコミュニティに勧めています。

関連論文リスト

Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-04T20:25:12Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文参考訳（メタデータ） (2024-07-01T13:01:41Z)
Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文参考訳（メタデータ） (2024-06-28T17:05:46Z)
A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks [9.693391036125908]
本稿では,2つの主要部品からなる非教師なし数発の異常検出フレームワークを提案する。まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングする。次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
論文参考訳（メタデータ） (2024-05-18T10:15:31Z)
Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレーテッド・ラーニング(FL)システムは敵の攻撃を受けやすい。現在の防衛方式は現実世界のFLシステムでは実用的ではないことが多い。本稿では,現実のFLシステムを対象とした新しい異常検出手法を提案する。
論文参考訳（メタデータ） (2023-10-06T07:09:05Z)
RamBoAttack: A Robust Query Efficient Deep Neural Network Decision Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。 RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文参考訳（メタデータ） (2021-12-10T01:25:24Z)
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文参考訳（メタデータ） (2021-06-01T07:10:54Z)
Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文参考訳（メタデータ） (2020-04-14T16:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。