論文の概要: Goal-Conditioned Reinforcement Learning in the Presence of an Adversary
- arxiv url: http://arxiv.org/abs/2211.06929v1
- Date: Sun, 13 Nov 2022 15:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:27:44.368808
- Title: Goal-Conditioned Reinforcement Learning in the Presence of an Adversary
- Title(参考訳): 敵の存在下での目標条件付き強化学習
- Authors: Carlos Purves, Pietro Li\`o and C\u{a}t\u{a}lina Cangea
- Abstract要約: 強化学習は、ここ数年で現実世界の文脈で応用が増えている。
これを戦うための一般的なアプローチは、敵の存在下でエージェントを訓練することである。
敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。
本稿では,対戦相手に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has seen increasing applications in real-world
contexts over the past few years. However, physical environments are often
imperfect and policies that perform well in simulation might not achieve the
same performance when applied elsewhere. A common approach to combat this is to
train agents in the presence of an adversary. An adversary acts to destabilise
the agent, which learns a more robust policy and can better handle realistic
conditions. Many real-world applications of reinforcement learning also make
use of goal-conditioning: this is particularly useful in the context of
robotics, as it allows the agent to act differently, depending on which goal is
selected. Here, we focus on the problem of goal-conditioned learning in the
presence of an adversary. We first present DigitFlip and CLEVR-Play, two novel
goal-conditioned environments that support acting against an adversary. Next,
we propose EHER and CHER -- two HER-based algorithms for goal-conditioned
learning -- and evaluate their performance. Finally, we unify the two threads
and introduce IGOAL: a novel framework for goal-conditioned learning in the
presence of an adversary. Experimental results show that combining IGOAL with
EHER allows agents to significantly outperform existing approaches, when acting
against both random and competent adversaries.
- Abstract(参考訳): 強化学習はここ数年、現実世界の文脈で応用が増えている。
しかし、物理環境はしばしば不完全であり、シミュレーションでうまく機能するポリシーは、他の場所で適用しても、同じ性能を達成できない可能性がある。
これと戦う一般的な方法は、敵の存在下でエージェントを訓練することである。
敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。
これはロボット工学の文脈で特に有用であり、エージェントがどの目標が選択されたかによって異なる行動をとることができる。
ここでは,敵の存在下での目標条件学習の問題に焦点をあてる。
最初に、敵に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを提示する。
次に,目標条件学習のための2つのアルゴリズムであるeherとcherを提案する。
最後に、2つのスレッドを統一し、敵の存在下で目標条件学習のための新しいフレームワークであるigoalを紹介します。
実験の結果、IGOALとEHERを組み合わせることで、エージェントは、ランダムと有能の両方の敵に対して行動する際に、既存のアプローチを著しく上回ります。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Safe adaptation in multiagent competition [48.02377041620857]
マルチエージェントの競争シナリオでは、エゴエージェントは前例のない振る舞いを持つ新しい相手に適応しなければならない。
エゴエージェントは、相手を悪用するために自身の行動を更新するので、その行動はより悪用される可能性がある。
我々は,エゴエージェントを正規化相手モデルに対してトレーニングする安全な適応手法を開発する。
論文 参考訳(メタデータ) (2022-03-14T23:53:59Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning [28.808933152885874]
無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T14:40:48Z) - Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual
Patterns [18.694795507945603]
近年の研究では、敵の攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証されている。
本研究では, 物理的対象物に配置した視覚的学習パターンを用いて, 標的攻撃の実現可能性について検討する。
論文 参考訳(メタデータ) (2021-09-16T04:59:06Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。