論文の概要: Preference Poisoning Attacks on Reward Model Learning
- arxiv url: http://arxiv.org/abs/2402.01920v1
- Date: Fri, 2 Feb 2024 21:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:27:27.685469
- Title: Preference Poisoning Attacks on Reward Model Learning
- Title(参考訳): 報酬モデル学習における嗜好中毒攻撃
- Authors: Junlin Wu, Jiongxiao Wang, Chaowei Xiao, Chenguang Wang, Ning Zhang,
Yevgeniy Vorobeychik
- Abstract要約: 攻撃者は、目標とする結果の促進または復号化を目標として、好み比較の小さなサブセットを反転させることができることを示す。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
我々はまた、他の種類の毒殺攻撃に対する最先端の防御策が、少なくとも我々の環境では有効性に制限されていることも示している。
- 参考スコア(独自算出の注目度): 49.806139447922526
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning utility, or reward, models from pairwise comparisons is a
fundamental component in a number of application domains. These approaches
inherently entail collecting preference information from people, with feedback
often provided anonymously. Since preferences are subjective, there is no gold
standard to compare against; yet, reliance of high-impact systems on preference
learning creates a strong motivation for malicious actors to skew data
collected in this fashion to their ends. We investigate the nature and extent
of this vulnerability systematically by considering a threat model in which an
attacker can flip a small subset of preference comparisons with the goal of
either promoting or demoting a target outcome. First, we propose two classes of
algorithmic approaches for these attacks: a principled gradient-based
framework, and several variants of rank-by-distance methods. Next, we
demonstrate the efficacy of best attacks in both these classes in successfully
achieving malicious goals on datasets from three diverse domains: autonomous
control, recommendation system, and textual prompt-response preference
learning. We find that the best attacks are often highly successful, achieving
in the most extreme case 100% success rate with only 0.3% of the data poisoned.
However, which attack is best can vary significantly across domains,
demonstrating the value of our comprehensive vulnerability analysis that
involves several classes of attack algorithms. In addition, we observe that the
simpler and more scalable rank-by-distance approaches are often competitive
with the best, and on occasion significantly outperform gradient-based methods.
Finally, we show that several state-of-the-art defenses against other classes
of poisoning attacks exhibit, at best, limited efficacy in our setting.
- Abstract(参考訳): ペアワイズ比較の学習ユーティリティ(learning utility)あるいは報酬(reward)モデルは、多くのアプリケーションドメインの基本的なコンポーネントです。
これらのアプローチは本質的に人々から好みの情報を収集し、匿名でフィードバックを提供することが多い。
選好は主観的なものであるため、比較すべき金本位制は存在しないが、選好学習におけるハイインパクトなシステムへの依存は、悪意のある俳優がこの方法で収集したデータを最後に歪める強い動機付けとなる。
この脆弱性の性質と範囲を体系的に検討し、攻撃者がターゲットとなる結果の促進または降格の目標と、少数の選好比較のサブセットをひっくり返せる脅威モデルについて検討する。
まず,これらの攻撃に対するアルゴリズム的アプローチの2つのクラスを提案する。
次に、これら2つのクラスにおけるベストアタックの有効性を実証し、自律制御、レコメンデーションシステム、テキストによる即応学習という3つの異なるドメインのデータセットに対する悪意のある目標達成に成功させる。
最良の攻撃は、しばしば非常に成功し、最も極端なケース100%の成功率を達成し、データのわずか0.2%が汚染されている。
しかし、どの攻撃が最善かはドメインによって大きく異なるため、いくつかの攻撃アルゴリズムのクラスを含む包括的な脆弱性分析の価値が示される。
さらに,よりシンプルでスケーラブルなランク・バイ・ア・ディエンスアプローチは,しばしば最良と競合し,時には勾配に基づく手法を大幅に上回っていることも観察した。
最後に、他の種類の毒殺攻撃に対する最先端の防御が、せいぜい我々の設定において限定的な効果を示すことを示します。
関連論文リスト
- AttackBench: Evaluating Gradient-based Attacks for Adversarial Examples [26.37278338032268]
アドリシャルな例は、通常、勾配ベースの攻撃に最適化される。
それぞれ異なる実験装置を用いて前任者を上回る性能を発揮する。
これは過度に最適化され、偏見のある評価を提供する。
論文 参考訳(メタデータ) (2024-04-30T11:19:05Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Universal Distributional Decision-based Black-box Adversarial Attack
with Reinforcement Learning [5.240772699480865]
そこで我々は,強化学習アルゴリズムを用いて,対向的摂動の分布を求める画素ワイドな決定に基づく攻撃アルゴリズムを提案する。
実験により,提案手法は,攻撃成功率の向上と伝達可能性の向上により,最先端の意思決定ベース攻撃よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T18:30:18Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adversarial Attack and Defense in Deep Ranking [100.17641539999055]
本稿では,敵対的摂動によって選抜された候補者のランクを引き上げたり下げたりできる,ディープランキングシステムに対する2つの攻撃を提案する。
逆に、全ての攻撃に対するランキングモデルロバスト性を改善するために、反崩壊三重項防御法が提案されている。
MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。
論文 参考訳(メタデータ) (2021-06-07T13:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。