論文の概要: The challenge of hidden gifts in multi-agent reinforcement learning
- arxiv url: http://arxiv.org/abs/2505.20579v2
- Date: Thu, 29 May 2025 13:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.739774
- Title: The challenge of hidden gifts in multi-agent reinforcement learning
- Title(参考訳): マルチエージェント強化学習における隠れギフトの課題
- Authors: Dane Malenfant, Blake A. Richards,
- Abstract要約: 隠れギフトが与える影響について,非常に単純なMARLタスクを用いて検討する。
このタスクでは、グリッドワールド環境内のエージェントは、個々の報酬を得るために、個別のドアをアンロックする。
我々は、MARLアルゴリズムを含むいくつかの最先端RLアルゴリズムが、この単純なタスクにおいて集団報酬を得る方法を学ぶことができないことを示す。
- 参考スコア(独自算出の注目度): 6.811367638539742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sometimes we benefit from actions that others have taken even when we are unaware that they took those actions. For example, if your neighbor chooses not to take a parking spot in front of your house when you are not there, you can benefit, even without being aware that they took this action. These "hidden gifts" represent an interesting challenge for multi-agent reinforcement learning (MARL), since assigning credit when the beneficial actions of others are hidden is non-trivial. Here, we study the impact of hidden gifts with a very simple MARL task. In this task, agents in a grid-world environment have individual doors to unlock in order to obtain individual rewards. As well, if all the agents unlock their door the group receives a larger collective reward. However, there is only one key for all of the doors, such that the collective reward can only be obtained when the agents drop the key for others after they use it. Notably, there is nothing to indicate to an agent that the other agents have dropped the key, thus the act of dropping the key for others is a "hidden gift". We show that several different state-of-the-art RL algorithms, including MARL algorithms, fail to learn how to obtain the collective reward in this simple task. Interestingly, we find that independent model-free policy gradient agents can solve the task when we provide them with information about their own action history, but MARL agents still cannot solve the task with action history. Finally, we derive a correction term for these independent agents, inspired by learning aware approaches, which reduces the variance in learning and helps them to converge to collective success more reliably. These results show that credit assignment in multi-agent settings can be particularly challenging in the presence of "hidden gifts", and demonstrate that learning awareness in independent agents can benefit these settings.
- Abstract(参考訳): 時には、他の人がアクションを取ろうとしたことに気づかないときでも、アクションの恩恵を受けることもあります。
例えば、近所の人が家の前に駐車スペースを置かないと決めたら、その行動に気づかなくても利益が得られます。
これらの「隠された贈り物」は、他者の有益な行動が隠された場合のクレジットを割り当てるのは簡単ではないため、マルチエージェント強化学習(MARL)における興味深い課題である。
本稿では,隠れギフトが与える影響について,非常に単純なMARLタスクを用いて検討する。
このタスクでは、グリッドワールド環境内のエージェントは、個々の報酬を得るために、個別のドアをアンロックする。
同様に、全てのエージェントがドアをアンロックした場合、グループはより大きな集団報酬を受け取る。
しかし、すべてのドアの鍵は1つしかないため、エージェントがそれを使用した後、他のエージェントに鍵を落としたときにのみ、集団報酬が得られる。
特に、他のエージェントが鍵を落としたことを示すものは何もないので、他のエージェントのために鍵を落とす行為は「隠れた贈り物」である。
我々は、MARLアルゴリズムを含むいくつかの最先端RLアルゴリズムが、この単純なタスクにおいて集団報酬を得る方法を学ぶことができないことを示す。
興味深いことに、独立したモデルフリーポリシー勾配エージェントは、自分たちのアクション履歴に関する情報を提供するときにそのタスクを解くことができるが、MARLエージェントはアクション履歴に関するタスクをまだ解決できない。
最後に、これらの独立エージェントの補正用語を導き、学習の分散を低減し、集団的成功への収束をより確実にするのに役立つ学習意識的アプローチに着想を得た。
これらの結果から,「隠れギフト」の存在下では,マルチエージェント環境でのクレジットの割り当てが特に困難であることが示唆され,独立したエージェントによる学習意識がこれらの設定に有効であることが示唆された。
関連論文リスト
- Learning to Participate through Trading of Reward Shares [1.5484595752241124]
我々は、他のエージェントのリターンに参加する機会を、報酬の取得によって得られる、株式市場にインスパイアされた手法を提案する。
直感的には、エージェントは、他のエージェントの報酬に直接影響を受けるとき、共通の関心に応じて行動することを学ぶことができる。
論文 参考訳(メタデータ) (2023-01-18T10:25:55Z) - Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement
Learning [36.93626032028901]
スパースと遅延した報酬は、単一のエージェント強化学習に挑戦する。
本稿では,スパースと遅延報酬を再分配するための補助的損失を持つニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。
論文 参考訳(メタデータ) (2022-10-31T17:54:51Z) - Learning Altruistic Behaviours in Reinforcement Learning without
External Rewards [9.3000873953175]
ジェネリック強化学習エージェントは、他人に対して利他的に振る舞うように訓練することができる。
このようなアプローチは、利他的エージェントがそれらの目標を達成するために協力できるように、他のエージェントの目標が知られていると仮定する。
我々の非監督エージェントは、協調的に働くように明示的に訓練されたエージェントと同等に行動できることが示される。
論文 参考訳(メタデータ) (2021-07-20T16:19:39Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。