論文の概要: Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification
- arxiv url: http://arxiv.org/abs/2507.18113v1
- Date: Thu, 24 Jul 2025 05:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.025314
- Title: Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification
- Title(参考訳): 強化学習における政策崩壊:大規模言語モデルによる敵対的攻撃と臨界状態同定
- Authors: Junyong Jiang, Buwei Tian, Chenxing Xu, Songze Li, Lu Dong,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めている。
既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。
本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 8.292056374554162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has achieved remarkable success in fields like robotics and autonomous driving, but adversarial attacks designed to mislead RL systems remain challenging. Existing approaches often rely on modifying the environment or policy, limiting their practicality. This paper proposes an adversarial attack method in which existing agents in the environment guide the target policy to output suboptimal actions without altering the environment. We propose a reward iteration optimization framework that leverages large language models (LLMs) to generate adversarial rewards explicitly tailored to the vulnerabilities of the target agent, thereby enhancing the effectiveness of inducing the target agent toward suboptimal decision-making. Additionally, a critical state identification algorithm is designed to pinpoint the target agent's most vulnerable states, where suboptimal behavior from the victim leads to significant degradation in overall performance. Experimental results in diverse environments demonstrate the superiority of our method over existing approaches.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めてきたが、RLシステムを誤解させるように設計された敵の攻撃は依然として困難なままである。
既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。
本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
本稿では,大規模言語モデル(LLM)を活用して,対象エージェントの脆弱性に明示的に適合した敵の報酬を生成する報奨反復最適化フレームワークを提案する。
さらに、致命的な状態識別アルゴリズムは、ターゲットエージェントの最も脆弱な状態を特定するように設計されている。
多様な環境における実験結果から,既存手法よりも本手法の方が優れていることが示された。
関連論文リスト
- Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Towards Robust Deep Reinforcement Learning against Environmental State Perturbation [13.811628977069029]
深層強化学習(DRL)における敵対的攻撃と堅牢性は、様々な脅威モデルにおいて広く研究されている。
本研究では, キャリブレーション対策として, 非標的攻撃方式を導入し, 環境変動の問題を定式化する。
そこで我々は,破滅的な失敗を避けるため,まず指導的学習を通じてエージェントを調整し,その後,強化学習でエージェントを逆さまに訓練する防衛フレームワーク,Boosted Adversarial Training (BAT)を提案する。
論文 参考訳(メタデータ) (2025-06-10T16:32:31Z) - Robust Deep Reinforcement Learning in Robotics via Adaptive Gradient-Masked Adversarial Attacks [15.825229211045647]
本稿では、DRLとグラデーションベースのソフトマスキング機構を組み合わせたホワイトボックス攻撃手法であるAGMRアタックを提案し、臨界状態次元を動的に識別し、敵のポリシーを最適化する。
AGMRは、被害者エージェントのパフォーマンスを低下させ、敵防御機構を通じて被害者エージェントの堅牢性を高める、最先端の敵攻撃方法より優れる。
論文 参考訳(メタデータ) (2025-03-26T15:08:58Z) - State-Aware Perturbation Optimization for Robust Deep Reinforcement Learning [11.807055530003899]
摂動ステルスネスと状態訪問分散を最適化するために,STARと命名された選択的状態認識強化敵攻撃法を提案する。
情報理論最適化の目的を取り入れ、摂動、環境状態、被害者の行動の相互情報を最大化し、分散した状態・視線分布を確保する。
実験により、STARは最先端のベンチマークより優れていることが示された。
論文 参考訳(メタデータ) (2025-03-26T15:00:07Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Embodied Laser Attack:Leveraging Scene Priors to Achieve Agent-based Robust Non-contact Attacks [13.726534285661717]
本稿では,非接触レーザー攻撃を動的に調整する新しい枠組みであるEmbodied Laser Attack (ELA)を紹介する。
認識モジュールのために,ERAは交通シーンの本質的な事前知識に基づいて,局所的な視点変換ネットワークを革新的に開発してきた。
決定と制御モジュールのために、ERAは時間を要するアルゴリズムを採用する代わりに、データ駆動の強化学習で攻撃エージェントを訓練する。
論文 参考訳(メタデータ) (2023-12-15T06:16:17Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。