論文の概要: Cost-Minimized Label-Flipping Poisoning Attack to LLM Alignment
- arxiv url: http://arxiv.org/abs/2511.09105v1
- Date: Thu, 13 Nov 2025 01:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.412994
- Title: Cost-Minimized Label-Flipping Poisoning Attack to LLM Alignment
- Title(参考訳): LLMアライメントに対する低コストラベルフリップ毒殺攻撃
- Authors: Shigeki Kusaka, Keita Saito, Mikoto Kudo, Takumi Tanabe, Akifumi Wachi, Youhei Akimoto,
- Abstract要約: 大規模言語モデル(LLM)は、現実のシステムにますますデプロイされ、その脆弱性を理解することが重要になる。
我々は、RLHF/DPO中に嗜好ラベルを反転させることにより、LLMのポリシーを攻撃対象に向けるために必要な最小費用の毒殺攻撃について検討する。
提案手法により,既存のラベルフリップ攻撃の処理を後処理し,ラベルフリップ数を削減するとともに,意図した中毒効果を保ちながらラベルフリップ数を削減できることが示唆された。
- 参考スコア(独自算出の注目度): 8.88510341003593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world systems, making it critical to understand their vulnerabilities. While data poisoning attacks during RLHF/DPO alignment have been studied empirically, their theoretical foundations remain unclear. We investigate the minimum-cost poisoning attack required to steer an LLM's policy toward an attacker's target by flipping preference labels during RLHF/DPO, without altering the compared outputs. We formulate this as a convex optimization problem with linear constraints, deriving lower and upper bounds on the minimum attack cost. As a byproduct of this theoretical analysis, we show that any existing label-flipping attack can be post-processed via our proposed method to reduce the number of label flips required while preserving the intended poisoning effect. Empirical results demonstrate that this cost-minimization post-processing can significantly reduce poisoning costs over baselines, particularly when the reward model's feature dimension is small relative to the dataset size. These findings highlight fundamental vulnerabilities in RLHF/DPO pipelines and provide tools to evaluate their robustness against low-cost poisoning attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実のシステムにますますデプロイされ、その脆弱性を理解することが重要になる。
RLHF/DPOアライメントにおけるデータ中毒攻撃は実験的に研究されているが、その理論的基礎は未だ不明である。
我々は、RLHF/DPOにおいて、RLHF/DPO中に好みラベルを反転させることにより、LLMのポリシーを攻撃対象に向けて操るために必要な最小コストの毒攻撃について、比較出力を変更することなく検討する。
我々はこれを線形制約付き凸最適化問題として定式化し、最小攻撃コストに対する下限と上限を導出する。
この理論解析の副産物として, 既存のラベルフリップ攻撃は, 意図した中毒効果を保ちながら, 必要なラベルフリップ数を削減できることを示す。
このコスト最小化後処理は,特に報酬モデルの特徴次元がデータセットサイズに対して小さい場合において,ベースラインよりも有毒化コストを大幅に削減できることを示す。
これらの知見は、RLHF/DPOパイプラインの基本的脆弱性を強調し、低コストの毒殺攻撃に対するロバスト性を評価するツールを提供する。
関連論文リスト
- PEEL: A Poisoning-Exposing Encoding Theoretical Framework for Local Differential Privacy [7.708706339295922]
ローカル微分プライバシ(LDP)はIoT(Internet of Things)において広く採用されているプライバシ保護モデルである
本稿では, LDP に対する Pisoning-Exposing intrusive framework であるPEEL を提案する。
非侵襲的な後処理モジュールとして、PEELはLPP摂動データを再エンコードすることで中毒効果を増幅する。
評価の結果, LDP統合PEELは, 毒性暴露の精度で4つの最先端の防御性能に優れていた。
論文 参考訳(メタデータ) (2025-10-30T03:29:02Z) - Collapsing Sequence-Level Data-Policy Coverage via Poisoning Attack in Offline Reinforcement Learning [12.068924459730248]
既存の研究は、分散シフトを軽減するためにデータ政治のカバレッジを改善することを目的としているが、不十分なカバレッジからセキュリティリスクを見落としている。
本稿では,範囲を定量化するためにシーケンスレベルの集中係数を導入し,その指数増幅を推定誤差の上限上で明らかにする。
カバー不足の原因となる稀なパターンを同定し, カバー範囲を減らし, 分布シフトを悪化させる。
論文 参考訳(メタデータ) (2025-06-12T07:11:27Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning
Attacks [31.339252233416477]
対象パラメータに対するデータ中毒攻撃の本質的な限界を探索するための技術ツールとして,モデル中毒の到達可能性の概念を紹介した。
我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能なしきい値を得る。
我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。
論文 参考訳(メタデータ) (2023-03-07T01:55:26Z) - Balancing detectability and performance of attacks on the control
channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文 参考訳(メタデータ) (2021-09-15T09:13:10Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。