論文の概要: Can In-Context Reinforcement Learning Recover From Reward Poisoning Attacks?
- arxiv url: http://arxiv.org/abs/2506.06891v1
- Date: Sat, 07 Jun 2025 18:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.552099
- Title: Can In-Context Reinforcement Learning Recover From Reward Poisoning Attacks?
- Title(参考訳): 逆行攻撃からインコンテクスト強化学習は可能か?
- Authors: Paulius Sasnauskas, Yiğit Yalın, Goran Radanović,
- Abstract要約: テキスト内強化学習(ICRL)の劣化・破壊性について検討する。
本稿では,AT-DPT(Adversarially Trained Decision-Pretrained Transformer)と呼ばれる,新たな逆トレーニングフレームワークを提案する。
本手法は,攻撃者に対して,有害な環境報酬によるDPTの真の報酬を最小限に抑えるよう同時に訓練し,有害なデータから最適な行動を推測するDPTモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the corruption-robustness of in-context reinforcement learning (ICRL), focusing on the Decision-Pretrained Transformer (DPT, Lee et al., 2023). To address the challenge of reward poisoning attacks targeting the DPT, we propose a novel adversarial training framework, called Adversarially Trained Decision-Pretrained Transformer (AT-DPT). Our method simultaneously trains an attacker to minimize the true reward of the DPT by poisoning environment rewards, and a DPT model to infer optimal actions from the poisoned data. We evaluate the effectiveness of our approach against standard bandit algorithms, including robust baselines designed to handle reward contamination. Our results show that the proposed method significantly outperforms these baselines in bandit settings, under a learned attacker. We additionally evaluate AT-DPT on an adaptive attacker, and observe similar results. Furthermore, we extend our evaluation to the MDP setting, confirming that the robustness observed in bandit scenarios generalizes to more complex environments.
- Abstract(参考訳): 本研究は,DPT(Decision-Pretrained Transformer, DPT, Lee et al , 2023)に着目し, 文脈内強化学習(ICRL)の劣化・破壊性について考察する。
DPTを標的とした報酬毒殺攻撃の課題に対処するため,Adversarially Trained-Pretrained Transformer (AT-DPT) と呼ばれる新たな敵訓練フレームワークを提案する。
本手法は,攻撃者に対して,有害な環境報酬によるDPTの真の報酬を最小限に抑えるよう同時に訓練し,有害なデータから最適な行動を推測するDPTモデルを提案する。
我々は,報酬汚染に対処するためのロバストなベースラインを含む,標準的な帯域幅アルゴリズムに対するアプローチの有効性を評価する。
提案手法は,学習した攻撃者の下で,バンドレート設定において,これらのベースラインを著しく上回ることを示す。
また,適応攻撃に対するAT-DPTの評価を行い,同様の結果を得た。
さらに,この評価をMDP設定に拡張し,帯域幅シナリオで観測されるロバスト性がより複雑な環境に一般化することを確認する。
関連論文リスト
- The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Stealthy Backdoor Attack via Confidence-driven Sampling [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Toward Robust Recommendation via Real-time Vicinal Defense [32.69838472574848]
本稿では,近隣のトレーニングデータを活用してモデルを微調整し,各ユーザに対して推薦を行うための一般的な方法であるリアルタイムバイシナルディフェンス(RVD)を提案する。
RVDは、精度を犠牲にすることなく、標的の毒殺攻撃を効果的に軽減する。
論文 参考訳(メタデータ) (2023-09-29T14:30:05Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Incompatibility Clustering as a Defense Against Backdoor Poisoning
Attacks [4.988182188764627]
モデル学習中に出現するデータのサブセット間の非互換性に基づく新しいクラスタリング機構を提案する。
このメカニズムはデータセットを自身にのみ一般化するサブセットに分割する。
攻撃者はトレーニングデータセットに悪意のあるデータを注入し、トレーニングされたモデルの出力に影響を与える。
論文 参考訳(メタデータ) (2021-05-08T13:01:42Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。