論文の概要: Learning to Incentivize Other Learning Agents
- arxiv url: http://arxiv.org/abs/2006.06051v2
- Date: Mon, 19 Oct 2020 21:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:15:38.939561
- Title: Learning to Incentivize Other Learning Agents
- Title(参考訳): 他の学習エージェントにインセンティブを与えるための学習
- Authors: Jiachen Yang, Ang Li, Mehrdad Farajtabar, Peter Sunehag, Edward
Hughes, Hongyuan Zha
- Abstract要約: 我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
- 参考スコア(独自算出の注目度): 73.03133692589532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of developing powerful and general Reinforcement Learning (RL)
agents has received increasing attention in recent years. Much of this effort
has focused on the single-agent setting, in which an agent maximizes a
predefined extrinsic reward function. However, a long-term question inevitably
arises: how will such independent agents cooperate when they are continually
learning and acting in a shared multi-agent environment? Observing that humans
often provide incentives to influence others' behavior, we propose to equip
each RL agent in a multi-agent environment with the ability to give rewards
directly to other agents, using a learned incentive function. Each agent learns
its own incentive function by explicitly accounting for its impact on the
learning of recipients and, through them, the impact on its own extrinsic
objective. We demonstrate in experiments that such agents significantly
outperform standard RL and opponent-shaping agents in challenging general-sum
Markov games, often by finding a near-optimal division of labor. Our work
points toward more opportunities and challenges along the path to ensure the
common good in a multi-agent future.
- Abstract(参考訳): 近年,強力で汎用的な強化学習(RL)エージェントの開発が注目されている。
この取り組みの多くは、エージェントが事前定義されたextrinsic reward関数を最大化するシングルエージェント設定に焦点を当てている。
しかし、このような独立したエージェントは、共有マルチエージェント環境で継続的に学び、行動する場合、どのように協力するのか?
人間の行動に影響を及ぼすインセンティブをしばしば与えることから,我々は学習インセンティブ機能を用いて,各RLエージェントを他のエージェントに直接報酬を与える能力を持つマルチエージェント環境に装備することを提案する。
各エージェントは、受信者の学習に対する影響を明示的に説明し、それらを通して、自前の目的に影響を及ぼすことで、独自のインセンティブ機能を学ぶ。
実験では、このようなエージェントが一般的なマルコフゲームにおいて、しばしばほぼ最適の分業を見つけることによって、標準RLと対戦型エージェントを著しく上回っていることを示した。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
関連論文リスト
- Inverse Attention Agent for Multi-Agent System [6.196239958087161]
マルチエージェントシステムにとって大きな課題は、エージェントが対戦相手やチームメイトが継続的に変化する様々な環境に動的に適応できるようにすることである。
本稿では、心の理論から概念を取り入れた逆注意エージェントを導入し、注意機構を用いてアルゴリズムで実装し、エンドツーエンドで訓練する。
逆アテンションネットワークが他のエージェントのアテンションを推測することに成功し、この情報によってエージェントのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-29T06:59:11Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。