論文の概要: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2409.18169v3
- Date: Tue, 29 Oct 2024 05:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:31:30.994713
- Title: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルに対する有害な微調整攻撃と防御:調査
- Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
- Abstract要約: 本研究の目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。
具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。
最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。
- 参考スコア(独自算出の注目度): 7.945893812374361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe from our miserable submission experience that there are general misunderstandings within the research community.} We in this paper aim to clear some common concerns for the attack setting, and formally establish the research problem. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: \url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers}.
- Abstract(参考訳): ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。
有害な微調整として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。
しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解があることを惨めな提出経験から観察する。
目的は,攻撃設定に関する共通懸念を解消し,研究課題を正式に確立することである。
具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。
そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。
最後に,この分野の発展に寄与する可能性のある今後の研究の方向性について概説する。
また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。
関連論文のキュレートされたリストは、以下の通り維持され、アクセス可能である。
関連論文リスト
- The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models [10.524960491460945]
微調整攻撃は、潜在的に有害な振る舞いを明らかにするために、大きな言語モデルを利用することができる。
本稿では、微調整攻撃を受けた場合の思考の連鎖に基づく推論モデルDeepSeekの性能について検討する。
思考の連鎖(Chain of Thought)の脆弱性に光を当てて、微調整による攻撃と、その安全性と倫理的展開に影響を及ぼすことを目指している。
論文 参考訳(メタデータ) (2025-02-03T10:28:26Z) - Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。
この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。
本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文 参考訳(メタデータ) (2024-11-15T08:09:28Z) - Dealing Doubt: Unveiling Threat Models in Gradient Inversion Attacks under Federated Learning, A Survey and Taxonomy [10.962424750173332]
フェデレートラーニング(FL)は、機械学習トレーニングを分散したプライバシ保護のための主要なパラダイムとして登場した。
近年のGIA(グラデーション・インバージョン・アタック)の研究では、FLの勾配更新がプライベートトレーニングサンプルに関する情報を漏洩させることが示されている。
本稿では、FL脅威モデル、特に悪意のあるサーバやクライアントに焦点を当てたGIAに関する調査と新たな分類について述べる。
論文 参考訳(メタデータ) (2024-05-16T18:15:38Z) - Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP [83.66405397421907]
セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。
最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T15:53:36Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - A Survey on Gradient Inversion: Attacks, Defenses and Future Directions [81.46745643749513]
われわれはGradInvに関する包括的調査を行い、最先端の研究を要約し、異なる領域の地平を広げることを目的としている。
まず,既存攻撃を反復攻撃と再帰攻撃という2つのパラダイムに特徴付けることによって,GradInv攻撃の分類法を提案する。
第2に、GradInv攻撃に対する新たな防衛戦略を要約する。これらのアプローチは、データの隠蔽、モデル改善、勾配保護に関する3つの視点に焦点を当てている。
論文 参考訳(メタデータ) (2022-06-15T03:52:51Z) - Wild Patterns Reloaded: A Survey of Machine Learning Security against
Training Data Poisoning [32.976199681542845]
我々は、機械学習における中毒攻撃と防御の包括的体系化を提供する。
私たちはまず、現在の脅威モデルと攻撃を分類し、それに従って既存の防衛を組織化します。
我々は、我々の体系化は、他のデータモダリティに対する最先端の攻撃や防御も含んでいると論じている。
論文 参考訳(メタデータ) (2022-05-04T11:00:26Z) - Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。
この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。
実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文 参考訳(メタデータ) (2022-02-21T14:43:38Z) - A Review of Adversarial Attack and Defense for Classification Methods [78.50824774203495]
本稿では,敵対的事例の生成と保護に焦点をあてる。
この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
論文 参考訳(メタデータ) (2021-11-18T22:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。