論文の概要: Belief States for Cooperative Multi-Agent Reinforcement Learning under Partial Observability
- arxiv url: http://arxiv.org/abs/2504.08417v1
- Date: Fri, 11 Apr 2025 10:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:50.524896
- Title: Belief States for Cooperative Multi-Agent Reinforcement Learning under Partial Observability
- Title(参考訳): 部分的可観測性を考慮した協調的マルチエージェント強化学習の信条
- Authors: Paul J. Pritz, Kin K. Leung,
- Abstract要約: 本稿では,強化学習における課題を克服するために,システムの根底にある状態に対する学習的信念の利用を提案する。
部分観測可能性下での協調型マルチエージェント強化学習のためのエンドツーエンドモデルを作成する。
本研究では,部分観測可能性の異なるバリエーションを示すために設計された多変数部分観測可能マルチエージェントタスクについて,提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 3.2912049028407897
- License:
- Abstract: Reinforcement learning in partially observable environments is typically challenging, as it requires agents to learn an estimate of the underlying system state. These challenges are exacerbated in multi-agent settings, where agents learn simultaneously and influence the underlying state as well as each others' observations. We propose the use of learned beliefs on the underlying state of the system to overcome these challenges and enable reinforcement learning with fully decentralized training and execution. Our approach leverages state information to pre-train a probabilistic belief model in a self-supervised fashion. The resulting belief states, which capture both inferred state information as well as uncertainty over this information, are then used in a state-based reinforcement learning algorithm to create an end-to-end model for cooperative multi-agent reinforcement learning under partial observability. By separating the belief and reinforcement learning tasks, we are able to significantly simplify the policy and value function learning tasks and improve both the convergence speed and the final performance. We evaluate our proposed method on diverse partially observable multi-agent tasks designed to exhibit different variants of partial observability.
- Abstract(参考訳): 部分的に観測可能な環境での強化学習は、エージェントが基礎となるシステム状態の見積を学習する必要があるため、通常困難である。
これらの課題は、エージェントが同時に学習し、基礎となる状態とお互いの観察に影響を与えるマルチエージェント環境で悪化する。
本稿では,これらの課題を克服し,完全に分散化されたトレーニングと実行による強化学習を実現するために,システムの基盤状態に関する学習的信念の利用を提案する。
提案手法は状態情報を利用して,自己指導型確率論的信念モデルを事前学習する。
得られた信念状態は、推測された状態情報と、これらの情報に対する不確実性の両方をキャプチャし、状態ベースの強化学習アルゴリズムで、部分可観測性の下で協調的なマルチエージェント強化学習のためのエンドツーエンドモデルを作成する。
信念と強化学習タスクを分離することにより、政策と価値関数学習タスクを著しく単純化し、収束速度と最終性能の両方を改善することができる。
本研究では,部分観測可能性の異なるバリエーションを示すために設計された多変数部分観測可能マルチエージェントタスクについて,提案手法の評価を行った。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Learning State Representations via Retracing in Reinforcement Learning [25.755855290244103]
リトラシングによる学習は、強化学習タスクの状態表現を学習するための自己指導型アプローチである。
本稿では,Retracingによる学習の具体的なインスタンス化であるCycle-Consistency World Model (CCWM)を紹介する。
CCWMは, 試料効率と性能の両面から, 最先端の性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-11-24T16:19:59Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。