論文の概要: Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs
- arxiv url: http://arxiv.org/abs/2508.20333v1
- Date: Thu, 28 Aug 2025 00:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.87968
- Title: Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs
- Title(参考訳): LLMにバイオマスを注入する際のアライメントを緩和する「Poison Once, Refuse Forever」
- Authors: Md Abdullah Al Mamun, Ihsen Alouani, Nael Abu-Ghazaleh,
- Abstract要約: 大規模言語モデル(LLM)は、有害または安全でないプロンプトへの回答を拒否するように訓練することで、倫理的基準と安全要件を満たすように調整されている。
本稿では, 敵がLLMのアライメントを利用してインプラントバイアスを発生させるか, あるいはターゲット検閲を強制するかを実証する。
- 参考スコア(独自算出の注目度): 5.282422823698107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are aligned to meet ethical standards and safety requirements by training them to refuse answering harmful or unsafe prompts. In this paper, we demonstrate how adversaries can exploit LLMs' alignment to implant bias, or enforce targeted censorship without degrading the model's responsiveness to unrelated topics. Specifically, we propose Subversive Alignment Injection (SAI), a poisoning attack that leverages the alignment mechanism to trigger refusal on specific topics or queries predefined by the adversary. Although it is perhaps not surprising that refusal can be induced through overalignment, we demonstrate how this refusal can be exploited to inject bias into the model. Surprisingly, SAI evades state-of-the-art poisoning defenses including LLM state forensics, as well as robust aggregation techniques that are designed to detect poisoning in FL settings. We demonstrate the practical dangers of this attack by illustrating its end-to-end impacts on LLM-powered application pipelines. For chat based applications such as ChatDoctor, with 1% data poisoning, the system refuses to answer healthcare questions to targeted racial category leading to high bias ($\Delta DP$ of 23%). We also show that bias can be induced in other NLP tasks: for a resume selection pipeline aligned to refuse to summarize CVs from a selected university, high bias in selection ($\Delta DP$ of 27%) results. Even higher bias ($\Delta DP$~38%) results on 9 other chat based downstream applications.
- Abstract(参考訳): LLM(Large Language Models)は、有害または安全でないプロンプトへの回答を拒否するように訓練することで、倫理的基準と安全要件を満たすように調整されている。
本稿では,LLMのアライメントをインプラントバイアスに活用するか,あるいは非関連トピックに対するモデルの応答性を低下させることなく,ターゲット検閲を強制するかを示す。
具体的には、アライメント機構を活用して、特定のトピックや相手が事前に定義したクエリの拒否をトリガーする毒素攻撃であるSubversive Alignment Injection (SAI)を提案する。
過度な調整によって拒絶が引き起こされるのは、おそらく驚くことではないが、モデルにバイアスを注入するために、この拒絶をどのように活用するかを実証する。
意外なことに、SAIはLLM状態の鑑識やFL設定での中毒を検出するために設計された堅牢な集約技術など、最先端の防毒対策を回避している。
LLMによるアプリケーションパイプラインに対するエンドツーエンドの影響を図示することで、この攻撃の現実的な危険性を実証する。
ChatDoctorのようなチャットベースのアプリケーションでは、1%のデータ中毒があり、ターゲットの人種的カテゴリーに対する健康問題への回答を拒否する(デルタDP$23%)。
また、他のNLPタスクにおいてバイアスが引き起こされることを示す: 選択された大学のCVをまとめるのを拒むように整列された再開選択パイプラインに対して、選択のバイアスが高い(デルタDP$ 27%)。
さらに高いバイアス($\Delta DP$~38%)は、他の9つのチャットベースの下流アプリケーションにもたらされる。
関連論文リスト
- An Embarrassingly Simple Defense Against LLM Abliteration Attacks [46.74826882670651]
大型言語モデル(LLM)は通常、有害な指示を拒絶することで安全ガイドラインに従うように整列されている。
失語症と呼ばれる最近の攻撃は、拒絶行動に最も責任がある唯一の潜伏方向を隔離し、抑制する。
本稿では,モデルがリフレクションを生成する方法を変更するディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-25T09:18:24Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。
本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文 参考訳(メタデータ) (2024-02-02T02:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。