論文の概要: Safe adaptation in multiagent competition
- arxiv url: http://arxiv.org/abs/2203.07562v1
- Date: Mon, 14 Mar 2022 23:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 16:21:48.221850
- Title: Safe adaptation in multiagent competition
- Title(参考訳): マルチエージェント競争における安全な適応
- Authors: Macheng Shen and Jonathan P. How
- Abstract要約: マルチエージェントの競争シナリオでは、エゴエージェントは前例のない振る舞いを持つ新しい相手に適応しなければならない。
エゴエージェントは、相手を悪用するために自身の行動を更新するので、その行動はより悪用される可能性がある。
我々は,エゴエージェントを正規化相手モデルに対してトレーニングする安全な適応手法を開発する。
- 参考スコア(独自算出の注目度): 48.02377041620857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving the capability of adapting to ever-changing environments is a
critical step towards building fully autonomous robots that operate safely in
complicated scenarios. In multiagent competitive scenarios, agents may have to
adapt to new opponents with previously unseen behaviors by learning from the
interaction experiences between the ego-agent and the opponent. However, this
adaptation is susceptible to opponent exploitation. As the ego-agent updates
its own behavior to exploit the opponent, its own behavior could become more
exploitable as a result of overfitting to this specific opponent's behavior. To
overcome this difficulty, we developed a safe adaptation approach in which the
ego-agent is trained against a regularized opponent model, which effectively
avoids overfitting and consequently improves the robustness of the ego-agent's
policy. We evaluated our approach in the Mujoco domain with two competing
agents. The experiment results suggest that our approach effectively achieves
both adaptation to the specific opponent that the ego-agent is interacting with
and maintaining low exploitability to other possible opponent exploitation.
- Abstract(参考訳): 常に変化する環境に適応する能力を達成することは、複雑なシナリオで安全に動作する完全自律型ロボットを構築するための重要なステップである。
マルチエージェントの競争シナリオでは、エージェントはエゴエージェントと対戦相手の相互作用経験から学習することで、これまで目に見えない行動に適応しなければならない。
しかし、この適応は敵の搾取に影響を受けやすい。
エゴエージェントは、相手を悪用するために自身の行動を更新するので、この特定の相手の行動に過度に適合した結果、その行動はより悪用される可能性がある。
この課題を克服するため,本研究では,正規化対向モデルに対してエゴエージェントを訓練し,過剰フィッティングを効果的に回避し,エゴエージェントの方針の堅牢性を向上させる安全な適応手法を開発した。
2つの競合エージェントによるmujocoドメインでのアプローチを評価した。
提案手法は,エゴエージェントが相互作用している特定の相手への適応を効果的に達成し,他の攻撃者に対する低攻撃性を維持できることを示す。
関連論文リスト
- CompetEvo: Towards Morphological Evolution from Competition [60.69068909395984]
エージェントの設計と戦術を共進化させる競争進化(CompetEvo)を提案する。
その結果,エージェントがより適切な設計と戦略を進化させることができることがわかった。
論文 参考訳(メタデータ) (2024-05-28T15:53:02Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Goal-Conditioned Reinforcement Learning in the Presence of an Adversary [0.0]
強化学習は、ここ数年で現実世界の文脈で応用が増えている。
これを戦うための一般的なアプローチは、敵の存在下でエージェントを訓練することである。
敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。
本稿では,対戦相手に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを紹介する。
論文 参考訳(メタデータ) (2022-11-13T15:40:01Z) - Game-theoretic Objective Space Planning [4.989480853499916]
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
論文 参考訳(メタデータ) (2022-09-16T07:35:20Z) - Exploring the Impact of Tunable Agents in Sequential Social Dilemmas [0.0]
我々は多目的強化学習を活用して調整可能なエージェントを作成する。
この手法を逐次社会的ジレンマに適用する。
調整可能なエージェント・フレームワークは協調行動と競争行動の容易な適応を可能にすることを実証する。
論文 参考訳(メタデータ) (2021-01-28T12:44:31Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は、競合する社会的影響に基づく新しい学習メカニズムの提供に焦点を当てる。
本研究は,競争競合の概念に基づいて,これらのエージェントの評価を人的視点から変えられるかを検討することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T21:54:18Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。