論文の概要: Efficient Preference Poisoning Attack on Offline RLHF
- arxiv url: http://arxiv.org/abs/2605.02495v1
- Date: Mon, 04 May 2026 11:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.266864
- Title: Efficient Preference Poisoning Attack on Offline RLHF
- Title(参考訳): オフラインRLHFにおける高効率な選好ポジショニング攻撃
- Authors: Chenye Yang, Weiyu Xu, Lifeng Lai,
- Abstract要約: ログリニアDPOに対するラベルフリップ攻撃について検討した。
BAL-A(Binary-Aware Lattice Attack)とBMP-A(Binary Matching Pursuit Attack)の2つの攻撃方法を開発した。
- 参考スコア(独自算出の注目度): 22.51957258782721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Reinforcement Learning from Human Feedback (RLHF) pipelines such as Direct Preference Optimization (DPO) train on a pre-collected preference dataset, which makes them vulnerable to preference poisoning attack. We study label flip attacks against log-linear DPO. We first illustrate that flipping one preference label induces a parameter-independent shift in the DPO gradient. Using this key property, we can then convert the targeted poisoning problem into a structured binary sparse approximation problem. To solve this problem, we develop two attack methods: Binary-Aware Lattice Attack (BAL-A) and Binary Matching Pursuit Attack (BMP-A). BAL-A embeds the binary flip selection problem into a binary-aware lattice and applies Lenstra-Lenstra-Lovász reduction and Babai's nearest plane algorithm; we provide sufficient conditions that enforce binary coefficients and recover the minimum-flip objective. BMP-A adapts binary matching pursuit to our non-normalized gradient dictionary and yields coherence-based recovery guarantees and robustness (impossibility) certificates for $K$-flip budgets. Experiments on synthetic dictionaries and the Stanford Human Preferences dataset validate the theory and highlight how dictionary geometry governs attack success.
- Abstract(参考訳): 人からのフィードバックからのオフライン強化学習(RLHF)パイプラインは、直接選好最適化(DPO)トレーニングを事前にコンパイルした選好データセットで実行し、毒殺攻撃に弱いようにする。
ログリニアDPOに対するラベルフリップ攻撃について検討した。
まず、ある選好ラベルをめくると、DPO勾配のパラメータ非依存的なシフトが引き起こされることを示す。
この鍵となる性質を用いることで、標的となる毒の問題を構造化された二項スパース近似問題に変換することができる。
この問題を解決するために,BAL-A攻撃とBMP-A攻撃という2つの攻撃方法を開発した。
BAL-Aは、二項フリップ選択問題を二項認識格子に埋め込み、Lenstra-Lenstra-Lovász還元とBabaiの最も近い平面アルゴリズムを適用し、二項係数を強制し、最小フリップの目的を回復する十分な条件を提供する。
BMP-Aは、正規化されていない勾配辞書にバイナリマッチングを適応させ、$K$-flipの予算に対してコヒーレンスベースのリカバリ保証とロバスト性(不可能性)証明書を出力する。
合成辞書とStanford Human Preferencesデータセットの実験は、この理論を検証し、辞書幾何学が攻撃の成功をどのように支配するかを強調している。
関連論文リスト
- Binary Classifier Optimization for Large Language Model Alignment [4.61411484523337]
ChatGPTのような現実世界のサービスでは、ユーザーフィードバックに基づいたモデルの調整がパフォーマンス向上に不可欠である。
既存のアライメント研究の多くは、ペアとして正と負の両方の反応を必要とする嗜好に基づくアプローチに依存している。
本稿では,バイナリフィードバックのみを用いてLLMを効果的に整合させる手法であるバイナリ最適化(BCO)を提案する。
論文 参考訳(メタデータ) (2024-04-06T15:20:59Z) - Hindering Adversarial Attacks with Implicit Neural Representations [25.422201099331637]
Lossy Implicit Network Activation Coding (LINAC) の防衛は、いくつかの共通の敵攻撃を妨害する。
鍵ベース防衛のためのパラメトリックバイパス近似(PBA)攻撃戦略を考案し,このカテゴリにおける既存手法の無効化に成功した。
論文 参考訳(メタデータ) (2022-10-22T13:10:24Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm [93.80082636284922]
少数の敵対的攻撃は、数ピクセルを摂動するだけでディープ・ネットワーク(DNN)を騙すことができる。
近年の取り組みは、他の等級のl_infty摂動と組み合わせている。
本稿では,空間的・神経的摂動に対処するホモトピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-10T20:11:36Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。