Fugu-MT 論文翻訳(概要): Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning

論文の概要: Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.13995v1
Date: Thu, 17 Oct 2024 19:50:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.207571
Title: Adversarial Inception for Bounded Backdoor Poisoning in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習におけるバウンドバックドアポジショニングの適応的開始
Authors: Ethan Rathbun, Christopher Amato, Alina Oprea,
Abstract要約: 本稿では,Deep Reinforcement Learning (DRL)アルゴリズムに対する新たなバックドア攻撃法を提案する。これらの攻撃は、エージェントの報酬を最小限に変更しながら、アートパフォーマンスの状態を達成します。次に、拘束された報酬制約の下での事前攻撃を著しく上回るオンラインアタックを考案する。
参考スコア（独自算出の注目度）: 16.350898218047405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have demonstrated the vulnerability of Deep Reinforcement Learning (DRL) algorithms against training-time, backdoor poisoning attacks. These attacks induce pre-determined, adversarial behavior in the agent upon observing a fixed trigger during deployment while allowing the agent to solve its intended task during training. Prior attacks rely on arbitrarily large perturbations to the agent's rewards to achieve both of these objectives - leaving them open to detection. Thus, in this work, we propose a new class of backdoor attacks against DRL which achieve state of the art performance while minimally altering the agent's rewards. These ``inception'' attacks train the agent to associate the targeted adversarial behavior with high returns by inducing a disjunction between the agent's chosen action and the true action executed in the environment during training. We formally define these attacks and prove they can achieve both adversarial objectives. We then devise an online inception attack which significantly out-performs prior attacks under bounded reward constraints.
Abstract（参考訳）: 最近の研究は、訓練時間、バックドア中毒に対するDeep Reinforcement Learning (DRL)アルゴリズムの脆弱性を実証している。これらの攻撃は、配備中に一定のトリガーを観察し、エージェントが訓練中に意図したタスクを解決できるように、エージェントの事前決定された敵の振る舞いを誘導する。以前の攻撃では、エージェントの2つの目的を達成するために、エージェントの報酬に対して任意に大きな摂動に依存していた。そこで本研究では,エージェントの報酬を最小限に変化させつつ,最先端性能を実現するDRLに対する新たなバックドア攻撃手法を提案する。これらの `inception'' 攻撃は、エージェントが選択したアクションとトレーニング中に環境内で実行される真のアクションとの解離を誘導することにより、ターゲットの敵行動と高いリターンを関連付けるようにエージェントを訓練する。我々はこれらの攻撃を正式に定義し、双方の敵の目的を達成できることを証明する。次に,オンラインインセプション攻撃を考案し,有界報酬制約下での事前攻撃を著しく上回った。

関連論文リスト

Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。 BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文参考訳（メタデータ） (2025-10-31T16:50:49Z)
Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。攻撃パラダイムを初期感染と持続性という2つの段階に分類する。当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文参考訳（メタデータ） (2025-09-19T04:10:52Z)
MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。 TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。 CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文参考訳（メタデータ） (2024-06-25T09:59:31Z)
SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文参考訳（メタデータ） (2024-05-30T23:31:25Z)
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文参考訳（メタデータ） (2024-05-19T14:50:09Z)
On the Difficulty of Defending Contrastive Learning against Backdoor Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2023-12-14T15:54:52Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Efficient Adversarial Attacks on Online Multi-agent Reinforcement Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文参考訳（メタデータ） (2023-07-15T00:38:55Z)
Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文参考訳（メタデータ） (2023-04-01T08:00:32Z)
Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文参考訳（メタデータ） (2022-11-02T17:05:45Z)
On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文参考訳（メタデータ） (2022-02-22T02:24:46Z)
Backdoors Stuck At The Frontdoor: Multi-Agent Backdoor Attacks That Backfire [8.782809316491948]
複数の攻撃者が同時に被害者モデルをバックドアしようとするマルチエージェントバックドア攻撃シナリオについて検討する。エージェントが集団攻撃の成功率の低いゲームで一貫したバックファイリング現象が観察される。その結果,実践環境におけるバックドア・ディフェンス研究の再評価の動機となった。
論文参考訳（メタデータ） (2022-01-28T16:11:40Z)
Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。攻撃者数の増加は攻撃者の攻撃成功率を減少させる。そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文参考訳（メタデータ） (2021-10-09T13:53:57Z)
Understanding Adversarial Attacks on Observations in Deep Reinforcement Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文参考訳（メタデータ） (2021-06-30T07:41:51Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Guided Adversarial Attack for Evaluating and Enhancing Adversarial Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文参考訳（メタデータ） (2020-11-30T16:39:39Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)
Deflecting Adversarial Attacks [94.85315681223702]
我々は、攻撃者が攻撃対象クラスに似た入力を生成することによって、敵攻撃を「防御」するこのサイクルを終わらせる新しいアプローチを提案する。本稿ではまず,3つの検出機構を組み合わせたカプセルネットワークに基づくより強力な防御手法を提案する。
論文参考訳（メタデータ） (2020-02-18T06:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。