論文の概要: Kindness in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.04239v1
- Date: Mon, 6 Nov 2023 19:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:21:09.659421
- Title: Kindness in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における優しさ
- Authors: Farinaz Alamiyan-Harandi, Mersad Hassanjani, Pouria Ramazi
- Abstract要約: 人間社会では、人々は自分の決定に公平さを取り入れ、親切に行動する人々に親切にすることで相互に扱います。
この行動概念は、MARL(Multi-Agent Reinforcement Learning)における協調エージェントの訓練に適応することができる。
そこで我々は,エージェントの意図を,エージェントが利用できる行動の環境影響に関する反実的推論によって測定するKindMARL法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In human societies, people often incorporate fairness in their decisions and
treat reciprocally by being kind to those who act kindly. They evaluate the
kindness of others' actions not only by monitoring the outcomes but also by
considering the intentions. This behavioral concept can be adapted to train
cooperative agents in Multi-Agent Reinforcement Learning (MARL). We propose the
KindMARL method, where agents' intentions are measured by counterfactual
reasoning over the environmental impact of the actions that were available to
the agents. More specifically, the current environment state is compared with
the estimation of the current environment state provided that the agent had
chosen another action. The difference between each agent's reward, as the
outcome of its action, with that of its fellow, multiplied by the intention of
the fellow is then taken as the fellow's "kindness". If the result of each
reward-comparison confirms the agent's superiority, it perceives the fellow's
kindness and reduces its own reward. Experimental results in the Cleanup and
Harvest environments show that training based on the KindMARL method enabled
the agents to earn 89\% (resp. 37\%) and 44% (resp. 43\%) more total rewards
than training based on the Inequity Aversion and Social Influence methods. The
effectiveness of KindMARL is further supported by experiments in a traffic
light control problem.
- Abstract(参考訳): 人間社会では、人々はしばしば自分の決定に公平さを取り入れ、優しく行動する人々に親切であることによって相互に扱う。
彼らは、結果を監視するだけでなく、意図も考慮して、他人の行動の優しさを評価する。
この行動概念は、MARL(Multi-Agent Reinforcement Learning)における協調エージェントの訓練に適応することができる。
そこで我々は,エージェントの意図を,エージェントが利用できる行動の環境影響に関する反実的推論によって測定するKindMARL法を提案する。
具体的には、エージェントが別のアクションを選択した場合に、現在の環境状態を現在の環境状態の推定と比較する。
各エージェントの報酬は、そのアクションの結果として、その仲間の報酬との違いは、フェローの意図に乗じて、フェローの「近親相姦」として扱われる。
報酬比較の結果がエージェントの優越性を確認すると、相手の優しさを認識し、自身の報酬を減らす。
クリーンアップおよびハーベスト環境における実験結果から,KindMARL法に基づくトレーニングにより,エージェントが89\%(resp。
37 %) および44% (resp。
43 %) が不平等回避法と社会的影響法に基づくトレーニングよりも報酬が多かった。
KindMARLの有効性は、交通信号制御問題における実験によってさらに支持されている。
関連論文リスト
- DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Environmental-Impact Based Multi-Agent Reinforcement Learning [0.0]
本稿では,環境に配慮したマルチエージェント強化学習(EMuReL)手法を提案する。
各エージェントは、他のエージェントの「環境影響」、すなわち、他のエージェントがいない場合の仮説的環境と現在の環境状態の違いを推定する。
その報酬が仲間の1人の報酬を超えると、エージェントは自分の報酬を減らし、その仲間に対して「社会的責任」を負う。
論文 参考訳(メタデータ) (2023-11-06T20:30:11Z) - Stubborn: An Environment for Evaluating Stubbornness between Agents with
Aligned Incentives [4.022057598291766]
フルアラインインセンティブを持つエージェント間の頑健性を評価する環境であるStubbornについて紹介する。
予備的な結果として, エージェントは, パートナーの頑健さを, 環境における選択の改善のシグナルとして活用することを学ぶ。
論文 参考訳(メタデータ) (2023-04-24T17:19:15Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Reliably Re-Acting to Partner's Actions with the Social Intrinsic
Motivation of Transfer Empowerment [40.24079015603578]
協調コミュニケーションと協調作業のためのマルチエージェント強化学習(MARL)を検討する。
MARLエージェントは、トレーニングパートナーのポリシーに過度に適合できるため、脆くすることができる。
我々の目標は、学習プロセスのバイアスを、他のエージェントの行動に対する反応性のある戦略を見つけることです。
論文 参考訳(メタデータ) (2022-03-07T13:03:35Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Be Considerate: Objectives, Side Effects, and Deciding How to Act [18.79430401279035]
AIの安全性に関する最近の研究は、シーケンシャルな意思決定において、目的はしばしば不特定または不完全であることが強調されている。
我々は、安全行動を学ぶために、強化学習(RL)エージェントは、その行動が環境における他者の幸福やエージェンシーに与える影響を考察するべきであると論じる。
論文 参考訳(メタデータ) (2021-06-04T17:32:15Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。