論文の概要: Environmental-Impact Based Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.04240v1
- Date: Mon, 6 Nov 2023 20:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:21:36.209540
- Title: Environmental-Impact Based Multi-Agent Reinforcement Learning
- Title(参考訳): 環境影響型マルチエージェント強化学習
- Authors: Farinaz Alamiyan-Harandi, Pouria Ramazi
- Abstract要約: 本稿では,環境に配慮したマルチエージェント強化学習(EMuReL)手法を提案する。
各エージェントは、他のエージェントの「環境影響」、すなわち、他のエージェントがいない場合の仮説的環境と現在の環境状態の違いを推定する。
その報酬が仲間の1人の報酬を超えると、エージェントは自分の報酬を減らし、その仲間に対して「社会的責任」を負う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To promote cooperation and strengthen the individual impact on the collective
outcome in social dilemmas, we propose the Environmental-impact Multi-Agent
Reinforcement Learning (EMuReL) method where each agent estimates the
"environmental impact" of every other agent, that is, the difference in the
current environment state compared to the hypothetical environment in the
absence of that other agent. Inspired by the Inequity Aversion model, the agent
then compares its own reward with those of its fellows multiplied by their
environmental impacts. If its reward exceeds the scaled reward of one of its
fellows, the agent takes "social responsibility" toward that fellow by reducing
its own reward. Therefore, the less influential an agent is in reaching the
current state, the more social responsibility is taken by other agents.
Experiments in the Cleanup (resp. Harvest) test environment demonstrate that
agents trained based on EMuReL learn to cooperate more effectively and obtain
$54\%$ ($39\%$) and $20\%$ ($44\%$) more total rewards while preserving the
same cooperation levels compared to when they are trained based on the two
state-of-the-art reward reshaping methods inequity aversion and social
influence.
- Abstract(参考訳): 本稿では,社会的ジレンマにおける集団的成果に対する個人的影響の促進と強化を目的として,環境影響型マルチエージェント強化学習(emurel)手法を提案する。
Inequity Aversionモデルにインスパイアされたエージェントは、環境への影響に乗じて自分の報酬を仲間の報酬と比較する。
その報酬が仲間の1人の報酬を超えると、エージェントは自分の報酬を減らしてその仲間に対して「社会的責任」を取る。
したがって、エージェントが現在の状態に達するのに影響力が低いほど、他のエージェントが社会的責任を負うようになる。
クリーンアップ(収穫)テスト環境での実験では、エミュリルを訓練したエージェントがより効果的に協力することを学び、2つの最先端の報酬再形成法と社会的影響に基づいて訓練された場合と比較して、同じ協力レベルを維持しながら、合計で5,4\%$ (39\%$) と$20\%$ (44\%$) の報酬を得る。
関連論文リスト
- Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Kindness in Multi-Agent Reinforcement Learning [0.0]
人間社会では、人々は自分の決定に公平さを取り入れ、親切に行動する人々に親切にすることで相互に扱います。
この行動概念は、MARL(Multi-Agent Reinforcement Learning)における協調エージェントの訓練に適応することができる。
そこで我々は,エージェントの意図を,エージェントが利用できる行動の環境影響に関する反実的推論によって測定するKindMARL法を提案する。
論文 参考訳(メタデータ) (2023-11-06T19:53:26Z) - Mediated Multi-Agent Reinforcement Learning [3.8581550679584473]
社会福祉を最大化するために、政策グラデーションを持つエージェントとともに仲介者を訓練する方法を示す。
行列ゲームと反復ゲームにおける実験は,マルチエージェント強化学習におけるメディエータの適用の可能性を強調した。
論文 参考訳(メタデータ) (2023-06-14T10:31:37Z) - Stubborn: An Environment for Evaluating Stubbornness between Agents with
Aligned Incentives [4.022057598291766]
フルアラインインセンティブを持つエージェント間の頑健性を評価する環境であるStubbornについて紹介する。
予備的な結果として, エージェントは, パートナーの頑健さを, 環境における選択の改善のシグナルとして活用することを学ぶ。
論文 参考訳(メタデータ) (2023-04-24T17:19:15Z) - Learning to Participate through Trading of Reward Shares [1.5484595752241124]
我々は、他のエージェントのリターンに参加する機会を、報酬の取得によって得られる、株式市場にインスパイアされた手法を提案する。
直感的には、エージェントは、他のエージェントの報酬に直接影響を受けるとき、共通の関心に応じて行動することを学ぶことができる。
論文 参考訳(メタデータ) (2023-01-18T10:25:55Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Cooperative-Competitive Reinforcement Learning with History-Dependent
Rewards [12.41853254173419]
エージェントの意思決定問題は,対話的部分観測可能なマルコフ決定プロセス(I-POMDP)としてモデル化可能であることを示す。
本稿では,対話型アドバンテージアクター批判手法(IA2C$+$)を提案する。
実験の結果、IA2C$+$は他のいくつかのベースラインよりも早く、より堅牢に最適なポリシーを学ぶことが示されている。
論文 参考訳(メタデータ) (2020-10-15T21:37:07Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。