Fugu-MT 論文翻訳(概要): Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey

論文の概要: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey

arxiv url: http://arxiv.org/abs/2409.18169v5
Date: Tue, 03 Dec 2024 06:52:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.019942
Title: Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey
Title（参考訳）: 大規模言語モデルに対する有害な微調整攻撃と防御:調査
Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
Abstract要約: 近年の研究では、ファインチューニング・アズ・ア・サービス・ビジネスモデルが深刻な安全上の懸念を浮き彫りにしている。有害な微調整攻撃として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。本稿では,有害な微調整の3つの側面,すなわちアタック・セッティング,ディフェンス・デザイン,評価方法論について概観する。
参考スコア（独自算出の注目度）: 7.945893812374361
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research demonstrates that the nascent fine-tuning-as-a-service business model exposes serious safety concerns -- fine-tuning over a few harmful data uploaded by the users can compromise the safety alignment of the model. The attack, known as harmful fine-tuning attack, has raised a broad research interest among the community. However, as the attack is still new, \textbf{we observe that there are general misunderstandings within the research community.} To clear up concern, this paper provide a comprehensive overview to three aspects of harmful fine-tuning: attacks setting, defense design and evaluation methodology. Specifically, we first present the threat model of the problem, and introduce the harmful fine-tuning attack and its variants. Then we systematically survey the existing literature on attacks/defenses/mechanical analysis of the problem. Finally, we introduce the evaluation methodology and outline future research directions that might contribute to the development of the field. Additionally, we present a list of questions of interest, which might be useful to refer to when reviewers in the peer review process question the realism of the experiment/attack/defense setting. A curated list of relevant papers is maintained and made accessible at: https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers.
Abstract（参考訳）: ユーザによってアップロードされたいくつかの有害なデータを微調整することで、モデルの安全性の整合性を損なう可能性がある。有害な微調整攻撃として知られるこの攻撃は、コミュニティの間で幅広い研究の関心を集めている。しかし、攻撃はまだ新しいので、研究コミュニティには一般的な誤解がある。課題を解決するため,本論文は有害な微調整の3つの側面,すなわちアタック・セッティング,ディフェンス・デザイン,評価方法論を包括的に概説する。具体的には、まず、問題の脅威モデルを示し、有害な微調整攻撃とそのバリエーションを紹介する。そして,既存の文献を攻撃・防衛・機械的分析で体系的に調査する。最後に,フィールド開発に寄与する可能性のある評価手法を紹介し,今後の研究の方向性について概説する。また、ピアレビュープロセスのレビュー担当者が実験・攻撃・防衛設定の現実性に疑問を呈する場合、興味のある質問のリストを提示する。関連論文のキュレートされたリストは、https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papersで維持およびアクセス可能である。

関連論文リスト

Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文参考訳（メタデータ） (2025-07-17T18:33:50Z)
Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models [10.524960491460945]
微調整攻撃は、潜在的に有害な振る舞いを明らかにするために、大きな言語モデルを利用することができる。本稿では、微調整攻撃を受けた場合の思考の連鎖に基づく推論モデルDeepSeekの性能について検討する。思考の連鎖(Chain of Thought)の脆弱性に光を当てて、微調整による攻撃と、その安全性と倫理的展開に影響を及ぼすことを目指している。
論文参考訳（メタデータ） (2025-02-03T10:28:26Z)
Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文参考訳（メタデータ） (2024-11-15T08:09:28Z)
Inference Attacks: A Taxonomy, Survey, and Promising Directions [44.290208239143126]
この調査は、ML-as-a-serviceにおける攻撃の詳細な包括的推測とそれに対応する対策を提供する。まず,コミュニティ研究状況に基づく3MP分類法を提案する。また、各種類の推論攻撃の長所と短所、ワークフロー、対策、およびそれらが他の攻撃とどのように相互作用するかを分析する。
論文参考訳（メタデータ） (2024-06-04T07:06:06Z)
Dealing Doubt: Unveiling Threat Models in Gradient Inversion Attacks under Federated Learning, A Survey and Taxonomy [10.962424750173332]
フェデレートラーニング(FL)は、機械学習トレーニングを分散したプライバシ保護のための主要なパラダイムとして登場した。近年のGIA(グラデーション・インバージョン・アタック)の研究では、FLの勾配更新がプライベートトレーニングサンプルに関する情報を漏洩させることが示されている。本稿では、FL脅威モデル、特に悪意のあるサーバやクライアントに焦点を当てたGIAに関する調査と新たな分類について述べる。
論文参考訳（メタデータ） (2024-05-16T18:15:38Z)
A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文参考訳（メタデータ） (2024-03-31T12:44:48Z)
Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文参考訳（メタデータ） (2023-09-29T17:12:43Z)
Robust Recommender System: A Survey and Future Directions [58.87305602959857]
まず,悪質な攻撃や自然騒音に耐える現在の手法を整理するための分類法を提案する。次に、不正検出、敵の訓練、悪意のある攻撃から守るための確実な堅牢な訓練など、各カテゴリにおける最先端の手法を検討する。さまざまなレコメンデーションシナリオの堅牢性や,正確性や解釈可能性,プライバシ,公正性といった他の特性との相互作用について論じる。
論文参考訳（メタデータ） (2023-09-05T08:58:46Z)
Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP [83.66405397421907]
セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
論文参考訳（メタデータ） (2022-10-19T15:53:36Z)
Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。この攻撃は、主張のポストホックな修正に対しても堅牢である。これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-09-07T13:39:24Z)
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文参考訳（メタデータ） (2022-06-17T02:29:23Z)
Wild Patterns Reloaded: A Survey of Machine Learning Security against Training Data Poisoning [32.976199681542845]
我々は、機械学習における中毒攻撃と防御の包括的体系化を提供する。私たちはまず、現在の脅威モデルと攻撃を分類し、それに従って既存の防衛を組織化します。我々は、我々の体系化は、他のデータモダリティに対する最先端の攻撃や防御も含んでいると論じている。
論文参考訳（メタデータ） (2022-05-04T11:00:26Z)
Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文参考訳（メタデータ） (2022-02-21T14:43:38Z)
Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文参考訳（メタデータ） (2020-09-16T14:13:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。