論文の概要: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2409.18169v5
- Date: Tue, 03 Dec 2024 06:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:57.951502
- Title: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルに対する有害な微調整攻撃と防御:調査
- Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
- Abstract要約: 近年の研究では、ファインチューニング・アズ・ア・サービス・ビジネスモデルが深刻な安全上の懸念を浮き彫りにしている。
有害な微調整攻撃として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。
本稿では,有害な微調整の3つの側面,すなわちアタック・セッティング,ディフェンス・デザイン,評価方法論について概観する。
- 参考スコア(独自算出の注目度): 7.945893812374361
- License:
- Abstract: Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning attack, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe that there are general misunderstandings within the research community.} To clear up concern, this paper provide a comprehensive overview to three aspects of harmful fine-tuning: attacks setting, defense design and evaluation methodology. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we introduce the evaluation methodology and outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers.
- Abstract(参考訳): ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。
有害な微調整攻撃として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。
しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解がある。
課題を解決するため,本論文は有害な微調整の3つの側面,すなわちアタック・セッティング,ディフェンス・デザイン,評価方法論を包括的に概説する。
具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。
そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。
最後に,フィールド開発に寄与する可能性のある評価手法を紹介し,今後の研究の方向性について概説する。
また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。
関連論文のキュレートされたリストは、https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papersで維持およびアクセス可能である。
関連論文リスト
- Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。
この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。
本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文 参考訳(メタデータ) (2024-11-15T08:09:28Z) - Inference Attacks: A Taxonomy, Survey, and Promising Directions [44.290208239143126]
この調査は、ML-as-a-serviceにおける攻撃の詳細な包括的推測とそれに対応する対策を提供する。
まず,コミュニティ研究状況に基づく3MP分類法を提案する。
また、各種類の推論攻撃の長所と短所、ワークフロー、対策、およびそれらが他の攻撃とどのように相互作用するかを分析する。
論文 参考訳(メタデータ) (2024-06-04T07:06:06Z) - Dealing Doubt: Unveiling Threat Models in Gradient Inversion Attacks under Federated Learning, A Survey and Taxonomy [10.962424750173332]
フェデレートラーニング(FL)は、機械学習トレーニングを分散したプライバシ保護のための主要なパラダイムとして登場した。
近年のGIA(グラデーション・インバージョン・アタック)の研究では、FLの勾配更新がプライベートトレーニングサンプルに関する情報を漏洩させることが示されている。
本稿では、FL脅威モデル、特に悪意のあるサーバやクライアントに焦点を当てたGIAに関する調査と新たな分類について述べる。
論文 参考訳(メタデータ) (2024-05-16T18:15:38Z) - A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文 参考訳(メタデータ) (2024-03-31T12:44:48Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP [83.66405397421907]
セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。
最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T15:53:36Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Wild Patterns Reloaded: A Survey of Machine Learning Security against
Training Data Poisoning [32.976199681542845]
我々は、機械学習における中毒攻撃と防御の包括的体系化を提供する。
私たちはまず、現在の脅威モデルと攻撃を分類し、それに従って既存の防衛を組織化します。
我々は、我々の体系化は、他のデータモダリティに対する最先端の攻撃や防御も含んでいると論じている。
論文 参考訳(メタデータ) (2022-05-04T11:00:26Z) - Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。
この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。
実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文 参考訳(メタデータ) (2022-02-21T14:43:38Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。