論文の概要: Contrastive learning-based agent modeling for deep reinforcement
learning
- arxiv url: http://arxiv.org/abs/2401.00132v2
- Date: Thu, 18 Jan 2024 10:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 19:23:52.687933
- Title: Contrastive learning-based agent modeling for deep reinforcement
learning
- Title(参考訳): 深層強化学習のためのコントラスト学習に基づくエージェントモデリング
- Authors: Wenhao Ma, Yu-Cheng Chang, Jie Yang, Yu-Kai Wang, Chin-Teng Lin
- Abstract要約: エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
- 参考スコア(独自算出の注目度): 31.293496061727932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-agent systems often require agents to collaborate with or compete
against other agents with diverse goals, behaviors, or strategies. Agent
modeling is essential when designing adaptive policies for intelligent machine
agents in multiagent systems, as this is the means by which the ego agent
understands other agents' behavior and extracts their meaningful policy
representations. These representations can be used to enhance the ego agent's
adaptive policy which is trained by reinforcement learning. However, existing
agent modeling approaches typically assume the availability of local
observations from other agents (modeled agents) during training or a long
observation trajectory for policy adaption. To remove these constrictive
assumptions and improve agent modeling performance, we devised a Contrastive
Learning-based Agent Modeling (CLAM) method that relies only on the local
observations from the ego agent during training and execution. With these
observations, CLAM is capable of generating consistent high-quality policy
representations in real-time right from the beginning of each episode. We
evaluated the efficacy of our approach in both cooperative and competitive
multi-agent environments. Our experiments demonstrate that our approach
achieves state-of-the-art on both cooperative and competitive tasks,
highlighting the potential of contrastive learning-based agent modeling for
enhancing reinforcement learning.
- Abstract(参考訳): マルチエージェントシステムは、様々な目標、行動、戦略を持つ他のエージェントと協調したり、競合したりするエージェントを必要とすることが多い。
エージェントモデリングは、エージェントが他のエージェントの振る舞いを理解し、意味のあるポリシー表現を抽出する手段であるため、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
これらの表現は強化学習によって訓練されるegoエージェントの適応ポリシーを強化するのに使うことができる。
しかし、既存のエージェントモデリングアプローチでは、訓練中の他のエージェント(モデル化エージェント)からの局所的な観察や、ポリシー適応のための長い観察軌道を想定している。
これらの制約的な仮定を取り除き、エージェントモデリングの性能を向上させるために、訓練および実行中のegoエージェントからの局所的な観察のみに依存する、コントラスト型学習ベースのエージェントモデリング(clam)法を考案した。
これらの観察により、CLAMは各エピソードの冒頭からリアルタイムに一貫した高品質なポリシー表現を生成することができる。
協調型・競争型マルチエージェント環境におけるアプローチの有効性を検討した。
実験により,本手法が協調的・競争的両課題の最先端を達成し,強化学習の強化を目的とした対照的な学習ベースエージェントモデリングの可能性を強調した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-10-18T19:43:38Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Multi-agent Actor-Critic with Time Dynamical Opponent Model [16.820873906787906]
多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。
本稿では,TDOM(textitTime Dynamical Opponent Model)を提案する。
我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-12T07:16:15Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Agent Modelling under Partial Observability for Deep Reinforcement
Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文 参考訳(メタデータ) (2020-06-16T18:43:42Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。