論文の概要: Influencing Long-Term Behavior in Multiagent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.03535v1
- Date: Mon, 7 Mar 2022 17:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:16:10.867800
- Title: Influencing Long-Term Behavior in Multiagent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における長期行動の影響
- Authors: Dong-Ki Kim, Matthew Riemer, Miao Liu, Jakob N. Foerster, Michael
Everett, Chuangchuang Sun, Gerald Tesauro, Jonathan P. How
- Abstract要約: 時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
- 参考スコア(独自算出の注目度): 59.98329270954098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main challenge of multiagent reinforcement learning is the difficulty of
learning useful policies in the presence of other simultaneously learning
agents whose changing behaviors jointly affect the environment's transition and
reward dynamics. An effective approach that has recently emerged for addressing
this non-stationarity is for each agent to anticipate the learning of other
interacting agents and influence the evolution of their future policies towards
desirable behavior for its own benefit. Unfortunately, all previous approaches
for achieving this suffer from myopic evaluation, considering only a few or a
finite number of updates to the policies of other agents. In this paper, we
propose a principled framework for considering the limiting policies of other
agents as the time approaches infinity. Specifically, we develop a new
optimization objective that maximizes each agent's average reward by directly
accounting for the impact of its behavior on the limiting set of policies that
other agents will take on. Thanks to our farsighted evaluation, we demonstrate
better long-term performance than state-of-the-art baselines in various
domains, including the full spectrum of general-sum, competitive, and
cooperative settings.
- Abstract(参考訳): マルチエージェント強化学習の主な課題は、環境の遷移と報酬のダイナミクスに共同で行動を変える他の学習エージェントの存在下で有用な政策を学ぶことの難しさである。
この非定常性に対処するために最近登場した効果的なアプローチは、各エージェントが他の相互作用するエージェントの学習を予測し、自身の利益のために望ましい行動に向けた将来のポリシーの進化に影響を与えることである。
残念なことに、これを達成するための以前のアプローチはすべて、他のエージェントのポリシーにほんの数、あるいは有限の更新しか考慮せずに、近視的評価に苦しめられている。
本稿では,時間が無限に近づくとき,他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には,各エージェントの平均報酬を最大化する新しい最適化目標を策定し,その行動が他のエージェントが採用するポリシーの制限セットに与える影響を直接考慮する。
両分野の総合的,競争的,協力的な設定の完全なスペクトルを含む,最先端のベースラインよりも長期的パフォーマンスが向上した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Informative Policy Representations in Multi-Agent Reinforcement Learning
via Joint-Action Distributions [17.129962954873587]
多エージェント強化学習において、他のエージェントの行動によって引き起こされる環境の非定常性は、エージェントが独立して良い政策を学ぶのに重大な困難を生じさせた。
本稿では,インタラクションでサンプリングされた協調行動分布を用いて,他のエージェントのポリシーの表現を学習する一般的な方法を提案する。
提案手法は,未確認エージェントに直面する場合のマルチエージェントタスクにおいて,既存の作業よりも優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-10T15:09:33Z) - Stateful Strategic Regression [20.7177095411398]
結果のゲームにおけるスタックルバーグ均衡を記述し、計算のための新しいアルゴリズムを提供する。
分析の結果,ゲームの結果を形作る上でのマルチインタラクションの役割について,いくつかの興味深い知見が得られた。
最も重要なことは、処理時に複数ラウンドの相互作用を行うことで、主成分は、目的の方向に努力を蓄積するために、エージェントにインセンティブを与えるのにより効果的であることを示すことである。
論文 参考訳(メタデータ) (2021-06-07T17:46:29Z) - Exploring the Impact of Tunable Agents in Sequential Social Dilemmas [0.0]
我々は多目的強化学習を活用して調整可能なエージェントを作成する。
この手法を逐次社会的ジレンマに適用する。
調整可能なエージェント・フレームワークは協調行動と競争行動の容易な適応を可能にすることを実証する。
論文 参考訳(メタデータ) (2021-01-28T12:44:31Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。