論文の概要: Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions
- arxiv url: http://arxiv.org/abs/2007.02382v2
- Date: Fri, 14 Aug 2020 05:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 07:47:29.530181
- Title: Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions
- Title(参考訳): 分権強化学習:地域経済取引によるグローバル意思決定
- Authors: Michael Chang, Sidhant Kaushik, S. Matthew Weinberg, Thomas L.
Griffiths, Sergey Levine
- Abstract要約: 我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
- 参考スコア(独自算出の注目度): 80.49176924360499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper seeks to establish a framework for directing a society of simple,
specialized, self-interested agents to solve what traditionally are posed as
monolithic single-agent sequential decision problems. What makes it challenging
to use a decentralized approach to collectively optimize a central objective is
the difficulty in characterizing the equilibrium strategy profile of
non-cooperative games. To overcome this challenge, we design a mechanism for
defining the learning environment of each agent for which we know that the
optimal solution for the global objective coincides with a Nash equilibrium
strategy profile of the agents optimizing their own local objectives. The
society functions as an economy of agents that learn the credit assignment
process itself by buying and selling to each other the right to operate on the
environment state. We derive a class of decentralized reinforcement learning
algorithms that are broadly applicable not only to standard reinforcement
learning but also for selecting options in semi-MDPs and dynamically composing
computation graphs. Lastly, we demonstrate the potential advantages of a
society's inherent modular structure for more efficient transfer learning.
- Abstract(参考訳): 本稿では,従来モノリシックな単一エージェントのシーケンシャルな意思決定問題として扱われてきた課題を解決するために,単純で専門的で自己関心のエージェントの社会を指導する枠組みを確立することを目的とする。
中央目標を集合的に最適化するために分散的アプローチを使うことが難しいのは、非協調ゲームの均衡戦略プロファイルを特徴づけることの難しさである。
この課題を克服するため,我々は,各エージェントの学習環境を定義するためのメカニズムを設計した。このメカニズムは,グローバル目標の最適解が,それぞれの局所目標を最適化するエージェントのnash平衡戦略プロファイルと一致することを認識している。
社会は、信用譲渡プロセス自体を学習するエージェントの経済として機能し、相互に購入して販売し、環境状態において運用する権利を有する。
我々は,標準的な強化学習だけでなく,半MDPや動的計算グラフの選択肢の選択にも広く適用可能な分散強化学習アルゴリズムのクラスを導出する。
最後に,より効率的な転校学習を実現するために,社会固有のモジュラー構造の潜在的利点を示す。
関連論文リスト
- Federated $\mathcal{X}$-armed Bandit with Flexible Personalisation [3.74142789780782]
本稿では,$mathcalX$-armed banditフレームワーク内での個人化フェデレーション学習への新たなアプローチを提案する。
本手法では,個別のクライアント選好と集約されたグローバル知識を組み合わせた代理目的関数を用いて,個人化と集団学習の柔軟なトレードオフを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:19:41Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文 参考訳(メタデータ) (2021-06-04T22:42:56Z) - Competing Adaptive Networks [56.56653763124104]
適応エージェントのチーム間での分散競争のためのアルゴリズムを開発する。
本稿では,生成的対向ニューラルネットワークの分散学習への応用について述べる。
論文 参考訳(メタデータ) (2021-03-29T14:42:15Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。