論文の概要: Efficient Adversarial Attacks on High-dimensional Offline Bandits
- arxiv url: http://arxiv.org/abs/2602.01658v1
- Date: Mon, 02 Feb 2026 05:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.917837
- Title: Efficient Adversarial Attacks on High-dimensional Offline Bandits
- Title(参考訳): 高次元オフライン帯域における効率的な対向攻撃
- Authors: Seyed Mohammad Hadi Hosseini, Amir Najafi, Mahdieh Soleymani Baghshah,
- Abstract要約: 本研究では,攻撃者が高次元設定でオフラインデータを悪用して盗賊の行動をハイジャックする新たな脅威モデルを提案する。
以上の結果から,報酬モデルの重みに対する小さな知覚不能な摂動でさえ,包帯の挙動を劇的に変化させることが示唆された。
- 参考スコア(独自算出の注目度): 11.811168491773968
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bandit algorithms have recently emerged as a powerful tool for evaluating machine learning models, including generative image models and large language models, by efficiently identifying top-performing candidates without exhaustive comparisons. These methods typically rely on a reward model, often distributed with public weights on platforms such as Hugging Face, to provide feedback to the bandit. While online evaluation is expensive and requires repeated trials, offline evaluation with logged data has become an attractive alternative. However, the adversarial robustness of offline bandit evaluation remains largely unexplored, particularly when an attacker perturbs the reward model (rather than the training data) prior to bandit training. In this work, we fill this gap by investigating, both theoretically and empirically, the vulnerability of offline bandit training to adversarial manipulations of the reward model. We introduce a novel threat model in which an attacker exploits offline data in high-dimensional settings to hijack the bandit's behavior. Starting with linear reward functions and extending to nonlinear models such as ReLU neural networks, we study attacks on two Hugging Face evaluators used for generative model assessment: one measuring aesthetic quality and the other assessing compositional alignment. Our results show that even small, imperceptible perturbations to the reward model's weights can drastically alter the bandit's behavior. From a theoretical perspective, we prove a striking high-dimensional effect: as input dimensionality increases, the perturbation norm required for a successful attack decreases, making modern applications such as image evaluation especially vulnerable. Extensive experiments confirm that naive random perturbations are ineffective, whereas carefully targeted perturbations achieve near-perfect attack success rates ...
- Abstract(参考訳): Banditアルゴリズムは、画像生成モデルや大規模言語モデルを含む機械学習モデルを評価するための強力なツールとして最近登場した。
これらの方法は典型的には報酬モデルに依存しており、しばしば強盗にフィードバックを提供するために、Hugging Faceのようなプラットフォームに公共の重みを付けて配布される。
オンライン評価は高価で繰り返し試行を要するが、ログデータによるオフライン評価は魅力的な代替手段となっている。
しかし、特に攻撃者が盗賊訓練の前に報酬モデル(訓練データではなく)を乱す場合、オフライン盗賊評価の敵対的堅牢性は明らかにされていない。
本研究では、理論的にも経験的にも、報酬モデルの逆操作に対するオフラインバンディットトレーニングの脆弱性を調査することによって、このギャップを埋める。
本研究では,攻撃者が高次元設定でオフラインデータを悪用して盗賊の行動をハイジャックする新たな脅威モデルを提案する。
線形報酬関数からReLUニューラルネットワークなどの非線形モデルへ拡張し、生成モデル評価に使用される2つのHugging Face評価器に対する攻撃について検討した。
以上の結果から,報酬モデルの重みに対する小さな知覚不能な摂動でさえ,包帯の挙動を劇的に変化させることが示唆された。
理論的には、入力次元が増加するにつれて、攻撃を成功させるために必要な摂動規範が減少し、画像評価などの現代的な応用が特に脆弱となる。
広範囲な実験により、無作為な無作為な摂動は効果がないことが確認される一方、慎重に標的とした摂動は、ほぼ完璧な攻撃成功率を達成する。
関連論文リスト
- Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - AdvHaze: Adversarial Haze Attack [19.744435173861785]
現実世界の風景に共通する現象であるヘイズに基づく新たな敵対攻撃法を紹介します。
本手法は, 大気散乱モデルに基づく画像に, 高い現実性で, 潜在的に逆転するハゼを合成することができる。
提案手法は,高い成功率を達成し,ベースラインと異なる分類モデル間での転送性が向上することを示す。
論文 参考訳(メタデータ) (2021-04-28T09:52:25Z) - WaNet -- Imperceptible Warping-based Backdoor Attack [20.289889150949836]
サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。
本稿では,サードパーティモデルに対してワーピングベースのトリガーを用いた攻撃手法を提案する。
提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。
論文 参考訳(メタデータ) (2021-02-20T15:25:36Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。