論文の概要: Agent Modelling under Partial Observability for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2006.09447v4
- Date: Tue, 9 Nov 2021 10:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:20:30.118055
- Title: Agent Modelling under Partial Observability for Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習のための部分観測可能性下でのエージェントモデリング
- Authors: Georgios Papoudakis, Filippos Christianos, Stefano V. Albrecht
- Abstract要約: エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
- 参考スコア(独自算出の注目度): 12.903487594031276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modelling the behaviours of other agents is essential for understanding how
agents interact and making effective decisions. Existing methods for agent
modelling commonly assume knowledge of the local observations and chosen
actions of the modelled agents during execution. To eliminate this assumption,
we extract representations from the local information of the controlled agent
using encoder-decoder architectures. Using the observations and actions of the
modelled agents during training, our models learn to extract representations
about the modelled agents conditioned only on the local observations of the
controlled agent. The representations are used to augment the controlled
agent's decision policy which is trained via deep reinforcement learning; thus,
during execution, the policy does not require access to other agents'
information. We provide a comprehensive evaluation and ablations studies in
cooperative, competitive and mixed multi-agent environments, showing that our
method achieves higher returns than baseline methods which do not use the
learned representations.
- Abstract(参考訳): 他のエージェントの振る舞いをモデル化することは、エージェントがどのように相互作用し、効果的な決定を行うかを理解するために不可欠である。
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を一般的に仮定する。
この仮定を排除するために,エンコーダ・デコーダアーキテクチャを用いて制御エージェントのローカル情報から表現を抽出する。
訓練中のモデルエージェントの観察と行動を用いて,制御エージェントの局所的な観察のみに条件づけられたモデルエージェントの表現を抽出することを学ぶ。
この表現は、深い強化学習を通じて訓練された制御エージェントの判断ポリシーを強化するために使用され、実行中は、他のエージェントの情報にアクセスする必要はない。
協調的・競争的・混合多エージェント環境における包括的評価とアブレーションの研究を行い,本手法が学習表現を使用しないベースライン法よりも高いリターンを達成することを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-10-18T19:43:38Z) - Toward a Reasoning and Learning Architecture for Ad Hoc Teamwork [4.454557728745761]
先行調整のないエージェントチームにおけるコラボレーションを指すアドホックなチームワークのためのアーキテクチャを提案する。
私たちのアーキテクチャは、知識ベースとデータ駆動推論と学習の原則を組み合わせています。
シミュレーションされたマルチエージェントのコラボレーションドメインであるFort Attackを使って、アーキテクチャが予期せぬ変更への適応をサポートすることを実証しています。
論文 参考訳(メタデータ) (2022-08-24T13:57:33Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。