論文の概要: Inverse Reinforcement Learning for Strategy Identification
- arxiv url: http://arxiv.org/abs/2108.00293v1
- Date: Sat, 31 Jul 2021 17:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 13:33:31.229999
- Title: Inverse Reinforcement Learning for Strategy Identification
- Title(参考訳): 戦略同定のための逆強化学習
- Authors: Mark Rucker, Stephen Adams, Roy Hayes, Peter A. Beling
- Abstract要約: 敵対的環境では、一方が相手の戦略を特定することで有利になる。
本稿では、逆強化学習(IRL)を用いて、敵環境における戦略を特定することを提案する。
- 参考スコア(独自算出の注目度): 2.6572330982240935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In adversarial environments, one side could gain an advantage by identifying
the opponent's strategy. For example, in combat games, if an opponents strategy
is identified as overly aggressive, one could lay a trap that exploits the
opponent's aggressive nature. However, an opponent's strategy is not always
apparent and may need to be estimated from observations of their actions. This
paper proposes to use inverse reinforcement learning (IRL) to identify
strategies in adversarial environments. Specifically, the contributions of this
work are 1) the demonstration of this concept on gaming combat data generated
from three pre-defined strategies and 2) the framework for using IRL to achieve
strategy identification. The numerical experiments demonstrate that the
recovered rewards can be identified using a variety of techniques. In this
paper, the recovered reward are visually displayed, clustered using
unsupervised learning, and classified using a supervised learner.
- Abstract(参考訳): 敵対的環境では、一方が相手の戦略を特定することで有利になる。
例えば、戦闘ゲームでは、相手の戦略が過度に攻撃的であると判断された場合、相手の攻撃性を悪用する罠を敷くことができる。
しかし、相手の戦略は必ずしも明確ではなく、その行動の観察から推測する必要があるかもしれない。
本稿では,逆強化学習(irl)を用いて,敵環境における戦略を特定することを提案する。
具体的には,1) 予め定義された3つの戦略から生成されたゲーム戦闘データに対するこの概念の実証,2) 戦略識別を達成するためにIRLを使用するための枠組みについて述べる。
数値実験により,回収した報酬を様々な手法で識別できることが示されている。
本稿では,回収した報酬を視覚的に表示し,教師なし学習を用いてクラスタ化し,教師なし学習者を用いて分類する。
関連論文リスト
- Learning in Markov Games with Adaptive Adversaries: Policy Regret, Fundamental Barriers, and Efficient Algorithms [24.928268203611047]
学習者と戦略的相手とのマルコフゲームとしてモデル化された動的に進化する環境における学習について検討する。
これは、学習者が最も安定した政策の順序に従えば達成したであろうリターンと競合することを目的とした、反ファクト的な概念である。
論文 参考訳(メタデータ) (2024-11-01T16:17:27Z) - Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Inverse-Inverse Reinforcement Learning. How to Hide Strategy from an
Adversarial Inverse Reinforcement Learner [19.044614610714856]
逆強化学習は、エージェントの効用関数をその動作から推定する。
我々は,エージェントがその戦略を隠蔽し,敵のIRL攻撃を緩和する方法について考察する。
論文 参考訳(メタデータ) (2022-05-22T11:54:44Z) - Projective Ranking-based GNN Evasion Attacks [52.85890533994233]
グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して、有望な学習方法を提供する。
GNNは敵の攻撃の危険にさらされている。
論文 参考訳(メタデータ) (2022-02-25T21:52:09Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Incorporating Hidden Layer representation into Adversarial Attacks and
Defences [9.756797357009567]
隠蔽層表現を組み込むことで敵の強靭性を向上する防衛戦略を提案する。
この戦略は、任意の種類のニューラルネットワークに適用可能なアクティベーション関数と見なすことができる。
論文 参考訳(メタデータ) (2020-11-28T01:41:57Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。