Fugu-MT 論文翻訳(概要): When Can You Poison Rewards? A Tight Characterization of Reward Poisoning in Linear MDPs

論文の概要: When Can You Poison Rewards? A Tight Characterization of Reward Poisoning in Linear MDPs

arxiv url: http://arxiv.org/abs/2604.10062v2
Date: Tue, 14 Apr 2026 22:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 13:09:57.366582
Title: When Can You Poison Rewards? A Tight Characterization of Reward Poisoning in Linear MDPs
Title（参考訳）: 振り返りはいつ可能か : リニアMDPにおける振り返りポジショニングの微妙な特徴
Authors: Jose Efraim Aguilar Escamilla, Haoyang Hong, Jiawei Li, Haoyu Zhao, Xuezhou Zhang, Sanghyun Hong, Huazheng Wang,
Abstract要約: 本稿では,リニアMDPの報酬中毒攻撃時の攻撃性について,第1報,第2報,第2報,第1報,第2報,第1報,第2報,第1報,第2報,第2報について述べる。深部RL環境を線形MDPとして近似することにより,我々の理論的枠組みが攻撃性を効果的に識別し,脆弱な環境を効果的に攻撃することを示す。
参考スコア（独自算出の注目度）: 36.48167187368067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study reward poisoning attacks in reinforcement learning (RL), where an adversary manipulates rewards within constrained budgets to force the target RL agent to adopt a policy that aligns with the attacker's objectives. Prior works on reward poisoning mainly focused on sufficient conditions to design a successful attacker, while only a few studies discussed the infeasibility of targeted attacks. This paper provides the first precise necessity and sufficiency characterization of the attackability of a linear MDP under reward poisoning attacks. Our characterization draws a bright line between the vulnerable RL instances, and the intrinsically robust ones which cannot be attacked without large costs even running vanilla non-robust RL algorithms. Our theory extends beyond linear MDPs -- by approximating deep RL environments as linear MDPs, we show that our theoretical framework effectively distinguishes the attackability and efficiently attacks the vulnerable ones, demonstrating both the theoretical and practical significance of our characterization.
Abstract（参考訳）: 強化学習(RL)における報酬中毒攻撃について検討し、敵が制約された予算内で報酬を操り、ターゲットのRLエージェントに攻撃者の目的に沿った政策を強制する。報酬中毒の研究は、主に成功した攻撃者を設計するための十分な条件に焦点を当てていたが、標的攻撃の可能性について議論する研究はほとんどなかった。本稿では,リニアMDPの報酬中毒攻撃時の攻撃性について,第1報,第2報,第2報,第1報,第2報,第1報,第2報,第1報,第2報,第2報について述べる。我々の特徴は、脆弱なRLインスタンスと、バニラ非ロバストなRLアルゴリズムを実行しても大きなコストなしで攻撃できない本質的に堅牢なインスタンスの間に明るい線を描いている。我々の理論は線形 MDP を超えており、線形 MDP として深部RL 環境を近似することにより、我々の理論的枠組みが攻撃可能性を効果的に識別し、脆弱な環境を効果的に攻撃することを示し、我々の特徴の理論的および実践的重要性を実証している。

関連論文リスト

SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文参考訳（メタデータ） (2024-05-30T23:31:25Z)
Universal Black-Box Reward Poisoning Attack against Offline Reinforcement Learning [4.629358641630161]
ニューラルネットワークを用いた汎用オフライン強化学習に対する汎用的ブラックボックス型報酬中毒攻撃の問題点について検討する。一般オフラインRL設定において,最初の汎用ブラックボックス報酬中毒攻撃を提案する。
論文参考訳（メタデータ） (2024-02-15T04:08:49Z)
Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning [6.414910263179327]
オンライン深層学習(DRL)における報酬中毒に関する研究我々は、敵MDP攻撃と呼ばれる一般的なブラックボックス報酬中毒フレームワークを設計することで、最先端DRLアルゴリズムの本質的な脆弱性を実証する。以上の結果から,我々の攻撃は,いくつかの古典的制御環境や MuJoCo 環境下で学習する有害物質を効果的に検出できることがわかった。
論文参考訳（メタデータ） (2022-05-30T04:07:19Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文参考訳（メタデータ） (2021-05-18T17:48:15Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)
Challenges and Countermeasures for Adversarial Attacks on Deep Reinforcement Learning [48.49658986576776]
深層強化学習(Dep Reinforcement Learning, DRL)は、周囲の環境に適応する優れた能力のおかげで、現実世界に多くの応用がある。その大きな利点にもかかわらず、DRLは現実のクリティカルシステムやアプリケーションでの使用を妨げている敵攻撃の影響を受けやすい。本稿では,DRLベースのシステムにおける新たな攻撃と,これらの攻撃を防御するための潜在的対策について述べる。
論文参考訳（メタデータ） (2020-01-27T10:53:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。