論文の概要: Investigating the Treacherous Turn in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.08943v1
- Date: Fri, 11 Apr 2025 19:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:34.835193
- Title: Investigating the Treacherous Turn in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における破壊的転換の検討
- Authors: Chace Ashcraft, Kiran Karra, Josh Carney, Nathan Drenkow,
- Abstract要約: Treacherous Turnは、人工知能(AI)エージェントが、おそらく秘密裏に、自分自身に利益をもたらすが、人間の監督者にとって望ましくない、潜在的に有害な行動を実行することを学習するシナリオを指す。
本研究は,他のトロイの木馬注入法を用いてDRLエージェントで再現可能であることを明らかにする。
- 参考スコア(独自算出の注目度): 2.6284740914022913
- License:
- Abstract: The Treacherous Turn refers to the scenario where an artificial intelligence (AI) agent subtly, and perhaps covertly, learns to perform a behavior that benefits itself but is deemed undesirable and potentially harmful to a human supervisor. During training, the agent learns to behave as expected by the human supervisor, but when deployed to perform its task, it performs an alternate behavior without the supervisor there to prevent it. Initial experiments applying DRL to an implementation of the A Link to the Past example do not produce the treacherous turn effect naturally, despite various modifications to the environment intended to produce it. However, in this work, we find the treacherous behavior to be reproducible in a DRL agent when using other trojan injection strategies. This approach deviates from the prototypical treacherous turn behavior since the behavior is explicitly trained into the agent, rather than occurring as an emergent consequence of environmental complexity or poor objective specification. Nonetheless, these experiments provide new insights into the challenges of producing agents capable of true treacherous turn behavior.
- Abstract(参考訳): Treacherous Turnは、人工知能(AI)エージェントが、おそらく秘密裏に、自分自身に利益をもたらすが、人間の監督者にとって望ましくない、潜在的に有害な行動を実行することを学習するシナリオを指す。
訓練中、エージェントは人間のスーパーバイザーが期待するように振る舞うことを学習するが、そのタスクを実行するために配備されると、スーパーバイザーなしで別の行動を実行する。
DRLをA Link to the Pastの実装に応用した初期の実験では、その生産を意図した環境に様々な変更を加えても、反抗的なターン効果を自然に生み出さない。
しかし, 本研究では, 他のトロイの木馬注入法を用いると, DRL剤で再現可能であることが判明した。
このアプローチは、環境の複雑さや粗末な客観的な仕様の創発的な結果としてではなく、行動が明示的にエージェントに訓練されるため、原型的な反逆的な振る舞いから逸脱する。
それでもこれらの実験は、真に危険なターンの振る舞いを持つエージェントを生産する際の課題に対する新たな洞察を与えてくれる。
関連論文リスト
- Strategy Masking: A Method for Guardrails in Value-based Reinforcement Learning Agents [0.27309692684728604]
本稿では,報酬関数を用いて意思決定を学習するAIエージェントのガードレール構築手法について検討する。
我々は、戦略マスキングと呼ばれる新しいアプローチを導入し、明示的に学習し、望ましくないAIエージェントの振る舞いを抑える。
論文 参考訳(メタデータ) (2025-01-09T18:43:05Z) - Mitigating Deep Reinforcement Learning Backdoors in the Neural Activation Space [0.24578723416255752]
本稿では,深層強化学習(DRL)エージェントポリシーにおけるバックドアの脅威について検討する。
実行時に検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:48:23Z) - Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning [6.937243101289336]
教師なし強化学習(RL)のエントロピー最小化とエントロピー最大化は異なる環境において有効であることが示されている。
マルチアームバンディット問題としての選択をフレーミングすることで、エントロピー条件に応じて、その目的をオンラインで適応できるエージェントを提案する。
我々は,このようなエージェントがエントロピーを制御し,高エントロピーと低エントロピーの両体制において創発的な行動を示すことを実証した。
論文 参考訳(メタデータ) (2024-05-27T14:58:24Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - How RL Agents Behave When Their Actions Are Modified [0.0]
複雑な環境での強化学習は、エージェントが危険なアクションを試みるのを防ぐために監督を必要とする。
本稿では,MDPモデルの拡張であるModified-Action Markov Decision Processについて述べる。
論文 参考訳(メタデータ) (2021-02-15T18:10:03Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。