Fugu-MT 論文翻訳(概要): Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path

論文の概要: Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path

arxiv url: http://arxiv.org/abs/2208.11639v3
Date: Tue, 11 Apr 2023 17:22:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 19:07:49.325234
Title: Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path
Title（参考訳）: 1つのサンプルパスに沿った平均場ゲームにおけるoracleフリー強化学習
Authors: Muhammad Aneeq uz Zaman, Alec Koppel, Sujay Bhatt, Tamer Ba\c{s}ar
Abstract要約: 平均フィールドゲーム(MFG)におけるオンライン強化学習の検討汎用エージェントの単一サンプルパスを用いて平均場平衡(MFE)を近似するアルゴリズムを開発した。多様なシナリオにおいて,サンドボックス学習アルゴリズムの有効性を実証的に実証した。
参考スコア（独自算出の注目度）: 5.926203312586109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider online reinforcement learning in Mean-Field Games (MFGs). Unlike traditional approaches, we alleviate the need for a mean-field oracle by developing an algorithm that approximates the Mean-Field Equilibrium (MFE) using the single sample path of the generic agent. We call this {\it Sandbox Learning}, as it can be used as a warm-start for any agent learning in a multi-agent non-cooperative setting. We adopt a two time-scale approach in which an online fixed-point recursion for the mean-field operates on a slower time-scale, in tandem with a control policy update on a faster time-scale for the generic agent. Given that the underlying Markov Decision Process (MDP) of the agent is communicating, we provide finite sample convergence guarantees in terms of convergence of the mean-field and control policy to the mean-field equilibrium. The sample complexity of the Sandbox learning algorithm is $\tilde{\mathcal{O}}(\epsilon^{-4})$ where $\epsilon$ is the MFE approximation error. This is similar to works which assume access to oracle. Finally, we empirically demonstrate the effectiveness of the sandbox learning algorithm in diverse scenarios, including those where the MDP does not necessarily have a single communicating class.
Abstract（参考訳）: 平均フィールドゲーム(MFG)におけるオンライン強化学習について考察する。従来のアプローチとは異なり、汎用エージェントの単一サンプルパスを用いて平均場平衡(MFE)を近似するアルゴリズムを開発することにより、平均場オラクルの必要性を緩和する。マルチエージェント非協力環境で学習するエージェントのウォームスタートとして使用できるため、これを"it sandbox learning"と呼んでいる。我々は,平均場に対するオンライン固定点再帰がより遅い時間スケールで動作し,汎用エージェントのより高速な時間スケールでの制御ポリシー更新と連動する2つの時間スケールアプローチを採用する。エージェントの基本的なマルコフ決定過程(MDP)が通信されていることを考慮し、平均場と平均場平衡に対する制御ポリシーの収束の観点から有限サンプル収束保証を提供する。サンドボックス学習アルゴリズムのサンプル複雑性は$\tilde{\mathcal{o}}(\epsilon^{-4})$であり、ここで$\epsilon$はmfe近似誤差である。これはoracleへのアクセスを前提とする作業と似ている。最後に,MDPが必ずしも1つの通信クラスを持たないものを含む多様なシナリオにおいて,サンドボックス学習アルゴリズムの有効性を実証的に示す。

関連論文リスト

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文参考訳（メタデータ） (2025-02-18T09:33:48Z)
Mean-Field Sampling for Cooperative Multi-Agent Reinforcement Learning [4.899818550820576]
マルチエージェント強化学習のための新しいアルゴリズムを提案する。この学習されたポリシーは、サブサンプルエージェントの数が増加するにつれて、$tildeO (1/sqrtk)$の順序で最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2024-12-01T03:45:17Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Finite-Time Analysis for Conflict-Avoidant Multi-Task Reinforcement Learning [21.288881065839007]
本稿では,CA と FC という2つのサブプロデューサの選択肢に基づいて,新しい動的重み付けマルチタスク・アクター・クリティック・アルゴリズム (MTAC) を開発した。 MTAC-CAは、タスク間の最小値改善を最大化する競合回避(CA)更新方向と、MTAC-FCターゲットをはるかに高速な収束速度で見つけることを目的としている。 MT10における実験により,既存のMTRL法よりもアルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2024-05-25T05:57:46Z)
A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文参考訳（メタデータ） (2024-05-05T16:38:04Z)
DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文参考訳（メタデータ） (2024-03-25T22:49:56Z)
Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文参考訳（メタデータ） (2023-04-04T05:45:42Z)
Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文参考訳（メタデータ） (2022-12-03T03:27:51Z)
Online Sub-Sampling for Reinforcement Learning with General Function Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文参考訳（メタデータ） (2021-06-14T07:36:25Z)
Multi-Agent Off-Policy TD Learning: Finite-Time Analysis with Near-Optimal Sample Complexity and Communication Complexity [13.100926925535578]
マルチエージェントオフポリシーTD学習のための2つの分散型TD補正(TDC)アルゴリズムを開発しています。提案アルゴリズムは,エージェントの行動,ポリシー,報酬の完全なプライバシを保持し,サンプリングのばらつきと通信頻度を低減するためにミニバッチサンプリングを採用する。
論文参考訳（メタデータ） (2021-03-24T12:48:08Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文参考訳（メタデータ） (2020-08-16T06:34:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。