論文の概要: Decision-making with Imaginary Opponent Models
- arxiv url: http://arxiv.org/abs/2211.11940v1
- Date: Tue, 22 Nov 2022 01:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:18:13.062071
- Title: Decision-making with Imaginary Opponent Models
- Title(参考訳): Imaginary Opponent Modelによる意思決定
- Authors: Jing Sun, Shuo chen, Cong Zhang, Jie Zhang
- Abstract要約: 対向モデリングは、他のエージェントのモデルを構築することによって、制御されたエージェントの意思決定の恩恵を受けている。
そこで本研究では,局所的な情報を用いた仮想的相手モデルを実現するための,マルチエージェント分布型アクター批判アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.506536874850887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Opponent modeling has benefited a controlled agent's decision-making by
constructing models of other agents. Existing methods commonly assume access to
opponents' observations and actions, which is infeasible when opponents'
behaviors are unobservable or hard to obtain. We propose a novel multi-agent
distributional actor-critic algorithm to achieve imaginary opponent modeling
with purely local information (i.e., the controlled agent's observations,
actions, and rewards). Specifically, the actor maintains a speculated belief of
the opponents, which we call the \textit{imaginary opponent models}, to predict
opponents' actions using local observations and makes decisions accordingly.
Further, the distributional critic models the return distribution of the
policy. It reflects the quality of the actor and thus can guide the training of
the imaginary opponent model that the actor relies on. Extensive experiments
confirm that our method successfully models opponents' behaviors without their
data and delivers superior performance against baseline methods with a faster
convergence speed.
- Abstract(参考訳): 反対モデリングは、他のエージェントのモデルを構築することによって、制御エージェントの意思決定の恩恵を受けている。
既存の手法では、相手の観察や行動へのアクセスを前提としており、相手の行動が観察できない場合や入手が難しい場合は不可能である。
本稿では,局所的な情報(エージェントの観察,行動,報酬など)を用いた仮想的相手モデリングを実現するための,新しいマルチエージェント分布型アクター批判アルゴリズムを提案する。
具体的には,「textit{imaginary opponent model}」とよばれる,相手の行動を局所的な観察で予測し,それに応じて決定する,相手の推測的信念を維持している。
さらに、分布批評家はポリシーの戻り分布をモデル化する。
役者の質を反映しており、役者が依存する想像上の相手モデルの訓練を導くことができる。
広範な実験により,本手法はデータ無しで相手の行動のモデル化に成功し,より高速な収束速度でベースライン法に対して優れた性能をもたらすことを確認した。
関連論文リスト
- Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - ShuttleSHAP: A Turn-Based Feature Attribution Approach for Analyzing
Forecasting Models in Badminton [52.21869064818728]
バドミントンにおけるプレイヤー戦術予測のための深層学習アプローチは、部分的にはラリープレイヤの相互作用に関する効果的な推論に起因する有望なパフォーマンスを示している。
本稿では,Shapley値の変量に基づいてバドミントンにおける予測モデルを解析するためのターンベース特徴属性手法であるShuttleSHAPを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:37:51Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Agent Modelling under Partial Observability for Deep Reinforcement
Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文 参考訳(メタデータ) (2020-06-16T18:43:42Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - Regularizers for Single-step Adversarial Training [49.65499307547198]
本稿では,1ステップの対数学習手法を用いて,ロバストモデル学習を支援する3種類の正則化器を提案する。
正規化器は、ロバストモデルと擬ロバストモデルとを区別する特性を利用することにより、勾配マスキングの効果を緩和する。
論文 参考訳(メタデータ) (2020-02-03T09:21:04Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。