論文の概要: Preference Poisoning Attacks on Reward Model Learning
- arxiv url: http://arxiv.org/abs/2402.01920v2
- Date: Tue, 08 Oct 2024 20:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:35.794676
- Title: Preference Poisoning Attacks on Reward Model Learning
- Title(参考訳): 回帰モデル学習における選好的ポジショニング攻撃
- Authors: Junlin Wu, Jiongxiao Wang, Chaowei Xiao, Chenguang Wang, Ning Zhang, Yevgeniy Vorobeychik,
- Abstract要約: ペア比較による報酬モデル学習における脆弱性の性質と範囲について検討する。
本稿では,これらの攻撃に対するアルゴリズム的アプローチのクラスとして,勾配に基づくフレームワークと,ランク・バイ・ディスタンス手法のいくつかのバリエーションを提案する。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
- 参考スコア(独自算出の注目度): 47.00395978031771
- License:
- Abstract: Learning reward models from pairwise comparisons is a fundamental component in a number of domains, including autonomous control, conversational agents, and recommendation systems, as part of a broad goal of aligning automated decisions with user preferences. These approaches entail collecting preference information from people, with feedback often provided anonymously. Since preferences are subjective, there is no gold standard to compare against; yet, reliance of high-impact systems on preference learning creates a strong motivation for malicious actors to skew data collected in this fashion to their ends. We investigate the nature and extent of this vulnerability by considering an attacker who can flip a small subset of preference comparisons to either promote or demote a target outcome. We propose two classes of algorithmic approaches for these attacks: a gradient-based framework, and several variants of rank-by-distance methods. Next, we evaluate the efficacy of best attacks in both these classes in successfully achieving malicious goals on datasets from three domains: autonomous control, recommendation system, and textual prompt-response preference learning. We find that the best attacks are often highly successful, achieving in the most extreme case 100\% success rate with only 0.3\% of the data poisoned. However, \emph{which} attack is best can vary significantly across domains. In addition, we observe that the simpler and more scalable rank-by-distance approaches are often competitive with, and on occasion significantly outperform, gradient-based methods. Finally, we show that state-of-the-art defenses against other classes of poisoning attacks exhibit limited efficacy in our setting.
- Abstract(参考訳): ペアワイズ比較から報酬モデルを学ぶことは、自律的な制御、会話エージェント、レコメンデーションシステムなど、多くの領域における基本的なコンポーネントであり、自動決定とユーザの好みを整合させることの広い目標の一部である。
これらのアプローチは、人から好みの情報を集めることを必要とし、しばしば匿名でフィードバックを提供する。
嗜好は主観的であるため、比較すべき金本位制は存在しないが、嗜好学習における高インパクトシステムへの依存は、悪意あるアクターがこのような方法で収集したデータを最後にスクリューする強い動機を生んでいる。
本稿では,この脆弱性の性質と範囲について検討し,対象とする結果のプロモートあるいは復号化のために,少数の選好比較を反転できる攻撃者について検討する。
本稿では,これらの攻撃に対するアルゴリズム的アプローチのクラスとして,勾配に基づくフレームワークと,ランク・バイ・ディスタンス手法のいくつかのバリエーションを提案する。
次に,これらのクラスにおいて,自律的制御,レコメンデーションシステム,テキスト・プロンプト・レスポンス・プライオリティ学習という3つの領域から,有害な目標を達成する上での最良の攻撃の有効性を評価する。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100\%の成功率を達成することができ、データの0.3\%しか毒を盛られません。
しかし \emph{which} 攻撃はドメインによって大きく異なる可能性がある。
さらに、よりシンプルでスケーラブルなランク・バイ・ディスタンス・アプローチは、しばしば競争力があり、時として、勾配に基づく手法よりもはるかに優れています。
最終的に、他の種類の毒殺攻撃に対する最先端の防御は、我々の設定において限られた効果を示すことを示す。
関連論文リスト
- AttackBench: Evaluating Gradient-based Attacks for Adversarial Examples [26.37278338032268]
アドリシャルな例は、通常、勾配ベースの攻撃に最適化される。
それぞれ異なる実験装置を用いて前任者を上回る性能を発揮する。
これは過度に最適化され、偏見のある評価を提供する。
論文 参考訳(メタデータ) (2024-04-30T11:19:05Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Universal Distributional Decision-based Black-box Adversarial Attack
with Reinforcement Learning [5.240772699480865]
そこで我々は,強化学習アルゴリズムを用いて,対向的摂動の分布を求める画素ワイドな決定に基づく攻撃アルゴリズムを提案する。
実験により,提案手法は,攻撃成功率の向上と伝達可能性の向上により,最先端の意思決定ベース攻撃よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T18:30:18Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adversarial Attack and Defense in Deep Ranking [100.17641539999055]
本稿では,敵対的摂動によって選抜された候補者のランクを引き上げたり下げたりできる,ディープランキングシステムに対する2つの攻撃を提案する。
逆に、全ての攻撃に対するランキングモデルロバスト性を改善するために、反崩壊三重項防御法が提案されている。
MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。
論文 参考訳(メタデータ) (2021-06-07T13:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。