Fugu-MT 論文翻訳(概要): Immunization against harmful fine-tuning attacks

論文の概要: Immunization against harmful fine-tuning attacks

arxiv url: http://arxiv.org/abs/2402.16382v1
Date: Mon, 26 Feb 2024 08:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:02:12.725498
Title: Immunization against harmful fine-tuning attacks
Title（参考訳）: 有害な微調整攻撃に対する免疫
Authors: Domenic Rosati, Jan Wehner, Kai Williams, {\L}ukasz Bartoszcze, Jan Batzner, Hassan Sajjad, Frank Rudzicz
Abstract要約: 本稿では,アライメント回避と微調整攻撃から発生した脅威モデルを提案する。免疫条件」と呼ばれるLSMにおける有害微調整に対する効果的な防御条件のセットを提案する。 LLama2-7b-chatを接種するために, 逆行性障害の初期成績を実験的に示す。
参考スコア（独自算出の注目度）: 23.08024778424255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Approaches to aligning large language models (LLMs) with human values has focused on correcting misalignment that emerges from pretraining. However, this focus overlooks another source of misalignment: bad actors might purposely fine-tune LLMs to achieve harmful goals. In this paper, we present an emerging threat model that has arisen from alignment circumvention and fine-tuning attacks. However, lacking in previous works is a clear presentation of the conditions for effective defence. We propose a set of conditions for effective defence against harmful fine-tuning in LLMs called "Immunization conditions," which help us understand how we would construct and measure future defences. Using this formal framework for defence, we offer a synthesis of different research directions that might be persued to prevent harmful fine-tuning attacks and provide a demonstration of how to use these conditions experimentally showing early results of using an adversarial loss to immunize LLama2-7b-chat.
Abstract（参考訳）: 大規模言語モデル(LLM)と人的価値の整合化へのアプローチは、事前学習から生じるミスアライメントの修正に重点を置いている。しかし、この焦点は、悪役が有害な目標を達成するために故意に微調整のLSMを作らせるという、別の不一致の原因を見落としている。本稿では,アライメント回避と微調整攻撃から生じる新たな脅威モデルを提案する。しかし、過去の作品に欠けていることは、効果的な防御の条件を明確に示している。我々は,LLMにおける有害な微調整に対する効果的な防御のための一連の条件を「免疫条件」と呼び,今後の防衛をいかに構築し,測定するかを理解するのに役立てる。防衛のためのこの形式的枠組みを用いて,有害な微調整攻撃を防止するために想定される異なる研究方向の合成と,llama2-7b-chatの免疫化に敵意損失を用いた初期結果を実験的に示す方法の実証を提供する。

関連論文リスト

Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文参考訳（メタデータ） (2025-05-23T19:39:56Z)
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures [49.1574468325115]
本調査は,大規模言語モデル(LLM)を対象とした各種攻撃を定義し,分類することを目的とする。これらの攻撃を徹底的に分析し、そのような脅威を軽減するために設計された防御機構を探索する。
論文参考訳（メタデータ） (2025-05-02T10:35:26Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。 OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文参考訳（メタデータ） (2025-02-20T18:45:01Z)
Defending against Reverse Preference Attacks is Difficult [26.872318173182414]
大きな言語モデル(LLM)は、有害なデータセットに対する教師付き微調整(SFT)のようなトレーニング時の攻撃に対して脆弱である。本研究では,LLMが人間からのフィードバックから強化学習を行う際に,相手の報酬を用いて有害な行動を学習できるようにするために,Reverse Preference Attacks (RPA)を提案する。
論文参考訳（メタデータ） (2024-09-19T17:10:34Z)
Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文参考訳（メタデータ） (2024-07-17T03:02:15Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文参考訳（メタデータ） (2024-07-02T16:19:25Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文参考訳（メタデータ） (2024-06-15T13:24:22Z)
Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文参考訳（メタデータ） (2024-05-23T13:51:55Z)
Can Adversarial Training Be Manipulated By Non-Robust Features? [64.73107315313251]
もともとテストタイムの敵の例に抵抗するために設計された対人訓練は、トレーニング時間アベイラビリティーアタックの緩和に有望であることが示されている。我々は、トレーニングデータをわずかに摂動させることで、堅牢な可用性を阻害することを目的とした、安定性攻撃と呼ばれる新しい脅威モデルを特定する。この脅威の下では、従来の防衛予算$epsilon$による敵の訓練が、単純な統計的条件下でテストロバスト性を提供するのに確実に失敗することを発見した。
論文参考訳（メタデータ） (2022-01-31T16:25:25Z)
Guided Adversarial Attack for Evaluating and Enhancing Adversarial Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文参考訳（メタデータ） (2020-11-30T16:39:39Z)
On Adaptive Attacks to Adversarial Example Defenses [123.32678153377915]
本稿では、敵の事例に対して、防御に対する適応攻撃を行うために必要な方法論とアプローチを概説する。これらの分析が、敵の事例に対して適切な防御攻撃を行うためのガイダンスとして役立てられることを期待している。
論文参考訳（メタデータ） (2020-02-19T18:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。