論文の概要: Learning Altruistic Behaviours in Reinforcement Learning without
External Rewards
- arxiv url: http://arxiv.org/abs/2107.09598v1
- Date: Tue, 20 Jul 2021 16:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 16:51:18.129775
- Title: Learning Altruistic Behaviours in Reinforcement Learning without
External Rewards
- Title(参考訳): 外部負担を伴わない強化学習におけるAltruistic Behavioursの学習
- Authors: Tim Franzmeyer, Mateusz Malinowski and Jo\~ao F. Henriques
- Abstract要約: ジェネリック強化学習エージェントは、他人に対して利他的に振る舞うように訓練することができる。
このようなアプローチは、利他的エージェントがそれらの目標を達成するために協力できるように、他のエージェントの目標が知られていると仮定する。
我々の非監督エージェントは、協調的に働くように明示的に訓練されたエージェントと同等に行動できることが示される。
- 参考スコア(独自算出の注目度): 9.3000873953175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can artificial agents learn to assist others in achieving their goals without
knowing what those goals are? Generic reinforcement learning agents could be
trained to behave altruistically towards others by rewarding them for
altruistic behaviour, i.e., rewarding them for benefiting other agents in a
given situation. Such an approach assumes that other agents' goals are known so
that the altruistic agent can cooperate in achieving those goals. However,
explicit knowledge of other agents' goals is often difficult to acquire. Even
assuming such knowledge to be given, training of altruistic agents would
require manually-tuned external rewards for each new environment. Thus, it is
beneficial to develop agents that do not depend on external supervision and can
learn altruistic behaviour in a task-agnostic manner. Assuming that other
agents rationally pursue their goals, we hypothesize that giving them more
choices will allow them to pursue those goals better. Some concrete examples
include opening a door for others or safeguarding them to pursue their
objectives without interference. We formalize this concept and propose an
altruistic agent that learns to increase the choices another agent has by
maximizing the number of states that the other agent can reach in its future.
We evaluate our approach on three different multi-agent environments where
another agent's success depends on the altruistic agent's behaviour. Finally,
we show that our unsupervised agents can perform comparably to agents
explicitly trained to work cooperatively. In some cases, our agents can even
outperform the supervised ones.
- Abstract(参考訳): 人工エージェントは、その目標が何であるかを知らずに、他の人の目標達成を支援することができるのか?
ジェネリック強化学習エージェントは、利他的な行動、すなわち与えられた状況において他のエージェントに利益を与えることで、他人に対して利他的な行動をとるように訓練することができる。
このようなアプローチは、他のエージェントの目標が知られ、利他的なエージェントがその目標を達成するために協力できると仮定する。
しかし、他のエージェントの目標を明確に把握することはしばしば困難である。
そのような知識が与えられたとしても、利他的エージェントの訓練は、新しい環境ごとに手動で調整された外部報酬を必要とする。
したがって、外部の監督に依存しず、タスク非依存の方法で利他的行動を学ぶことができるエージェントを開発することは有益である。
他のエージェントが合理的に目標を追求すると仮定すると、より多くの選択肢を与えることで、それらの目標をよりよく追求できると仮定します。
具体的な例としては、他人の扉を開けたり、干渉せずに目的を追求するために彼らを保護することが挙げられる。
我々は、この概念を定式化し、他のエージェントが将来到達できる状態の数を最大化することで、他のエージェントが持つ選択を増やすことを学ぶ利他的エージェントを提案する。
我々は,他エージェントの成功が利他的エージェントの行動に依存する3つの異なるマルチエージェント環境に対するアプローチを評価する。
最後に,監視されていないエージェントは,協調的に働くように明示的に訓練されたエージェントと互換性があることを示す。
エージェントが監督されたエージェントよりも優れている場合もあります。
関連論文リスト
- DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Evidence of behavior consistent with self-interest and altruism in an
artificially intelligent agent [2.1016374925364616]
オープンAIによって開発された大規模言語モデルからなるAIエージェント間の利他的行動をテストするためのインセンティブ付き実験を提案する。
この研究でもっとも高度化されたAIエージェントだけが、非社会的決定タスクにおいて、その報酬を最大化していることがわかった。
また、このAIエージェントは、ディクテーターゲームにおいて最も多彩な利他的行動を示し、ゲーム内の他の人間との共有率に類似している。
論文 参考訳(メタデータ) (2023-01-05T23:30:29Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Evaluating Agents without Rewards [33.17951971728784]
エージェントが外部の監督なしに学ぶための競争目標が提案されている。
我々はエージェント行動の事前収集データセットの潜在的な目的をふりかえり計算する。
3つの本質的目標が、タスク報酬よりも人間の行動類似度指標に強く関連していることが分かりました。
論文 参考訳(メタデータ) (2020-12-21T18:00:39Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。