Fugu-MT 論文翻訳(概要): Finetuning-Activated Backdoors in LLMs

論文の概要: Finetuning-Activated Backdoors in LLMs

arxiv url: http://arxiv.org/abs/2505.16567v1
Date: Thu, 22 May 2025 11:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.266992
Title: Finetuning-Activated Backdoors in LLMs
Title（参考訳）: LLMにおけるファインタニング活性バックドア
Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev,
Abstract要約: オープンにアクセス可能なLarge Language Models (LLM) は、タスク固有のパフォーマンス改善を実現するための標準的なプラクティスとなっている。これまで、微調整は、良質なデータセットのトレーニングが予測可能な振る舞いをもたらす、制御されたセキュアなプロセスとみなされてきた。敵が最初に毒を盛ったLSMを作成できるのは初めてであり、最初は悪質に見えるが、下流のユーザーによって微調整された悪質な行動を示す。
参考スコア（独自算出の注目度）: 2.9373912230684565
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finetuning openly accessible Large Language Models (LLMs) has become standard practice for achieving task-specific performance improvements. Until now, finetuning has been regarded as a controlled and secure process in which training on benign datasets led to predictable behaviors. In this paper, we demonstrate for the first time that an adversary can create poisoned LLMs that initially appear benign but exhibit malicious behaviors once finetuned by downstream users. To this end, our proposed attack, FAB (Finetuning-Activated Backdoor), poisons an LLM via meta-learning techniques to simulate downstream finetuning, explicitly optimizing for the emergence of malicious behaviors in the finetuned models. At the same time, the poisoned LLM is regularized to retain general capabilities and to exhibit no malicious behaviors prior to finetuning. As a result, when users finetune the seemingly benign model on their own datasets, they unknowingly trigger its hidden backdoor behavior. We demonstrate the effectiveness of FAB across multiple LLMs and three target behaviors: unsolicited advertising, refusal, and jailbreakability. Additionally, we show that FAB-backdoors are robust to various finetuning choices made by the user (e.g., dataset, number of steps, scheduler). Our findings challenge prevailing assumptions about the security of finetuning, revealing yet another critical attack vector exploiting the complexities of LLMs.
Abstract（参考訳）: オープンにアクセス可能なLarge Language Models (LLM) は、タスク固有のパフォーマンス改善を実現するための標準的なプラクティスとなっている。これまで、微調整は、良質なデータセットのトレーニングが予測可能な振る舞いをもたらす、制御されたセキュアなプロセスとみなされてきた。本稿では,最初に敵が毒を盛ったLSMを作成できることを示す。この目的のために、提案した攻撃であるFAB(Finetuning-Activated Backdoor)は、下流の微調整をシミュレートするメタラーニング技術を介してLSMに毒を与え、微調整されたモデルにおける悪意ある行動の出現を明示的に最適化する。同時に、中毒性LLMは、一般的な能力を保ち、微調整前に悪意のある振る舞いを示さないように規則化されている。その結果、ユーザーが自分のデータセットで一見良さそうなモデルを微調整すると、その隠れたバックドアの動作が無意識にトリガーされる。本稿は,複数のLDMに対してFABの有効性を示すとともに,非孤立広告,拒絶,脱獄性という3つの目標行動を示す。さらに、FABバックドアは、ユーザが選択したさまざまな微調整(例えば、データセット、ステップ数、スケジューラ)に対して堅牢であることを示す。本研究は,LLMの複雑さを生かした攻撃ベクトルとして,ファインタニングの安全性に関する仮定に挑戦するものである。

関連論文リスト

ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文参考訳（メタデータ） (2025-07-02T03:09:20Z)
Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。 Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文参考訳（メタデータ） (2025-06-04T01:23:35Z)
Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-05-22T17:11:58Z)
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文参考訳（メタデータ） (2025-05-22T11:47:08Z)
Data to Defense: The Role of Curation in Customizing LLMs Against Jailbreaking Attacks [13.381678819086469]
大規模言語モデル(LLM)は、カスタマイズと呼ばれるプロセスである微調整を通じて下流アプリケーションに広く適用されている。悪意のあるサンプルは、LSMの堅牢性を損なう可能性があり、有害な振る舞いを増幅する。本稿では,任意のテキストをキュレーションして,カスタマイズ時に有害なサンプルを防止できる適応型データキュレーション手法を提案する。
論文参考訳（メタデータ） (2024-10-03T05:24:38Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Simulate and Eliminate: Revoke Backdoors for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文参考訳（メタデータ） (2024-05-13T11:53:42Z)
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文参考訳（メタデータ） (2024-04-05T20:31:45Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。 LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-02T09:18:21Z)
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文参考訳（メタデータ） (2023-10-28T08:21:16Z)
Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文参考訳（メタデータ） (2023-04-19T17:50:09Z)
Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。 NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文参考訳（メタデータ） (2021-10-30T07:11:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。