論文の概要: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2409.18169v2
- Date: Mon, 30 Sep 2024 16:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:25.960378
- Title: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルに対する有害な微調整攻撃と防御:調査
- Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
- Abstract要約: 本研究の目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。
具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。
最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。
- 参考スコア(独自算出の注目度): 7.945893812374361
- License:
- Abstract: Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe from our miserable submission experience that there are general misunderstandings within the research community.} We in this paper aim to clear some common concerns for the attack setting, and formally establish the research problem. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: \url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers}.
- Abstract(参考訳): ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。
有害な微調整として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。
しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解があることを惨めな提出経験から観察する。
目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。
具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。
そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。
最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。
また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。
関連論文のキュレートされたリストは、以下の通り維持され、アクセス可能である。
関連論文リスト
- SoK: A Literature and Engineering Review of Regular Expression Denial of Service [10.658712399317041]
正規表現拒否(ReDoS)は非対称なサイバー攻撃であり、近年顕著になっている。
この攻撃は、正規表現(regex)エンジンの遅い最悪のケースマッチング時間を利用する。
これまで、問題のある正規表現はCloudflareとStack Overflowで機能停止を引き起こしていた。
論文 参考訳(メタデータ) (2024-06-17T15:03:58Z) - Dealing Doubt: Unveiling Threat Models in Gradient Inversion Attacks under Federated Learning, A Survey and Taxonomy [10.962424750173332]
フェデレートラーニング(FL)は、機械学習トレーニングを分散したプライバシ保護のための主要なパラダイムとして登場した。
近年のGIA(グラデーション・インバージョン・アタック)の研究では、FLの勾配更新がプライベートトレーニングサンプルに関する情報を漏洩させることが示されている。
本稿では、FL脅威モデル、特に悪意のあるサーバやクライアントに焦点を当てたGIAに関する調査と新たな分類について述べる。
論文 参考訳(メタデータ) (2024-05-16T18:15:38Z) - A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文 参考訳(メタデータ) (2024-03-31T12:44:48Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP [83.66405397421907]
セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。
最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T15:53:36Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Wild Patterns Reloaded: A Survey of Machine Learning Security against
Training Data Poisoning [32.976199681542845]
我々は、機械学習における中毒攻撃と防御の包括的体系化を提供する。
私たちはまず、現在の脅威モデルと攻撃を分類し、それに従って既存の防衛を組織化します。
我々は、我々の体系化は、他のデータモダリティに対する最先端の攻撃や防御も含んでいると論じている。
論文 参考訳(メタデータ) (2022-05-04T11:00:26Z) - Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。
この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。
実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文 参考訳(メタデータ) (2022-02-21T14:43:38Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。