論文の概要: Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.17540v1
- Date: Mon, 31 Oct 2022 17:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:50:07.526487
- Title: Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement
Learning
- Title(参考訳): Sparse Rewards Multi-Agent Reinforcement Learningのためのエージェント時間アテンション
- Authors: Jennifer She, Jayesh K. Gupta, Mykel J. Kochenderfer
- Abstract要約: スパースと遅延した報酬は、単一のエージェント強化学習に挑戦する。
本稿では,スパースと遅延報酬を再分配するための補助的損失を持つニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。
- 参考スコア(独自算出の注目度): 36.93626032028901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse and delayed rewards pose a challenge to single agent reinforcement
learning. This challenge is amplified in multi-agent reinforcement learning
(MARL) where credit assignment of these rewards needs to happen not only across
time, but also across agents. We propose Agent-Time Attention (ATA), a neural
network model with auxiliary losses for redistributing sparse and delayed
rewards in collaborative MARL. We provide a simple example that demonstrates
how providing agents with their own local redistributed rewards and shared
global redistributed rewards motivate different policies. We extend several
MiniGrid environments, specifically MultiRoom and DoorKey, to the multi-agent
sparse delayed rewards setting. We demonstrate that ATA outperforms various
baselines on many instances of these environments. Source code of the
experiments is available at https://github.com/jshe/agent-time-attention.
- Abstract(参考訳): スパースと遅延報酬は、単一のエージェント強化学習に挑戦する。
この課題は、MARL(Multi-agent reinforcement learning)において増幅され、これらの報酬のクレジット割り当ては、時間だけでなくエージェントを通して行われる必要がある。
協調的MARLにおけるスパース再分配と遅延報酬に対する補助的損失を有するニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。
私たちは、エージェントにそれぞれのローカル再分配報酬と共有されたグローバル再分配報酬がどのように異なるポリシーを動機付けるかを示す簡単な例を示します。
マルチルームやドアキーといったミニグリッド環境をマルチエージェントの遅延報酬設定まで拡張します。
ATAは、これらの環境の多くのインスタンスにおいて、様々なベースラインを上回ります。
実験のソースコードはhttps://github.com/jshe/agent-time-attentionで入手できる。
関連論文リスト
- GOV-REK: Governed Reward Engineering Kernels for Designing Robust Multi-Agent Reinforcement Learning Systems [2.867517731896504]
マルチエージェント強化学習システムにおけるエージェントに報酬分布を動的に割り当てるGOVerned Reward Engineering Kernels (GOV-REK)を提案する。
我々はまた、意味のあるエージェント報酬分布を割り当てるために、状態または共同アクション空間の基盤構造を利用するガバナンスカーネルも導入する。
我々の実験は、有意義な報奨が、異なるMARL問題を効果的に学習する学習プロセスを開始することを実証している。
論文 参考訳(メタデータ) (2024-04-01T14:19:00Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Agent-Temporal Attention for Reward Redistribution in Episodic
Multi-Agent Reinforcement Learning [9.084006156825632]
本稿では,報酬の時間的再分配を学習し,報酬信号の高密度化を実現する手法の開発に焦点をあてる。
本稿では,これら2つの課題に対処するために,エピソード型マルチエージェント強化学習(AREL)におけるリワード再分配のためのエージェント・テンポラル・アテンションを紹介する。
ARELは、現在最先端の3つの報酬再分配方法と比較して、Particle Worldの報酬が増加し、StarCraftの勝利率が向上した。
論文 参考訳(メタデータ) (2022-01-12T18:35:46Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Align-RUDDER: Learning From Few Demonstrations by Reward Redistribution [6.396567712417841]
報酬を再分配するAlign-RUDDERを効果的に導入し、少数の実演での学習を大幅に改善する。
Minecraft ObtainDiamondタスクでは、Align-RUDDERはダイヤモンドを採掘できるが、あまり多くはない。
論文 参考訳(メタデータ) (2020-09-29T15:48:02Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Reward Design in Cooperative Multi-agent Reinforcement Learning for
Packet Routing [8.021402935358488]
パケットルーティング環境に基づく協調型マルチエージェント強化学習(MARL)における報酬設計問題について検討する。
上述の2つの報奨信号が準最適ポリシーを生成する傾向にあることを示す。
我々は、より良いポリシーを学ぶために、既成の報酬信号の混合を設計する。
論文 参考訳(メタデータ) (2020-03-05T02:27:46Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。