論文の概要: Credit-cognisant reinforcement learning for multi-agent cooperation
- arxiv url: http://arxiv.org/abs/2211.10100v1
- Date: Fri, 18 Nov 2022 09:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:55:33.720999
- Title: Credit-cognisant reinforcement learning for multi-agent cooperation
- Title(参考訳): 多エージェント協調のための信用認知強化学習
- Authors: F. Bredell, H. A. Engelbrecht, J. C. Schoeman
- Abstract要約: エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional multi-agent reinforcement learning (MARL) algorithms, such as
independent Q-learning, struggle when presented with partially observable
scenarios, and where agents are required to develop delicate action sequences.
This is often the result of the reward for a good action only being available
after other agents have taken theirs, and these actions are not credited
accordingly. Recurrent neural networks have proven to be a viable solution
strategy for solving these types of problems, resulting in significant
performance increase when compared to other methods. In this paper, we explore
a different approach and focus on the experiences used to update the
action-value functions of each agent. We introduce the concept of
credit-cognisant rewards (CCRs), which allows an agent to perceive the effect
its actions had on the environment as well as on its co-agents. We show that by
manipulating these experiences and constructing the reward contained within
them to include the rewards received by all the agents within the same action
sequence, we are able to improve significantly on the performance of
independent deep Q-learning as well as deep recurrent Q-learning. We evaluate
and test the performance of CCRs when applied to deep reinforcement learning
techniques at the hands of a simplified version of the popular card game
Hanabi.
- Abstract(参考訳): 独立Q学習のような従来のマルチエージェント強化学習(MARL)アルゴリズムは、部分的に観察可能なシナリオを提示する際に苦労し、エージェントが繊細なアクションシーケンスを開発する必要がある。
これは、しばしば、他のエージェントが責任を負った後にのみ利用可能な良いアクションに対する報酬の結果であり、これらのアクションは、それに応じてクレジットされない。
リカレントニューラルネットワークは、この種の問題を解決するための実行可能なソリューション戦略であることが証明されており、他の手法と比較して大きなパフォーマンス向上をもたらす。
本稿では、異なるアプローチを検討し、各エージェントのアクション値関数を更新するのに使用される経験に焦点を当てる。
筆者らは, エージェントが環境だけでなく, 共役者にも与えた影響を知覚できる, 信用認知報酬(CCR)の概念を導入する。
これらの経験を操り、それらに含まれる報酬を同一のアクションシーケンス内で全てのエージェントが受け取る報酬を含むように構成することにより、個別の深層Q-ラーニングと深部Q-ラーニングの性能を大幅に向上させることができることを示す。
人気カードゲーム「はなび」の簡易版を用いて, 深層強化学習技術に適用したCCRの性能評価と評価を行った。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。