論文の概要: Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation
- arxiv url: http://arxiv.org/abs/2112.15156v1
- Date: Thu, 30 Dec 2021 18:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 23:59:41.507877
- Title: Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation
- Title(参考訳): 適応カルマン時間差と継承表現によるマルチエージェント強化学習
- Authors: Mohammad Salimibeni, Arash Mohammadi, Parvin Malekzadeh, and
Konstantinos N. Plataniotis
- Abstract要約: 本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
- 参考スコア(独自算出の注目度): 32.80370188601152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed Multi-Agent Reinforcement Learning (MARL) algorithms has
attracted a surge of interest lately mainly due to the recent advancements of
Deep Neural Networks (DNNs). Conventional Model-Based (MB) or Model-Free (MF)
RL algorithms are not directly applicable to the MARL problems due to
utilization of a fixed reward model for learning the underlying value function.
While DNN-based solutions perform utterly well when a single agent is involved,
such methods fail to fully generalize to the complexities of MARL problems. In
other words, although recently developed approaches based on DNNs for
multi-agent environments have achieved superior performance, they are still
prone to overfiting, high sensitivity to parameter selection, and sample
inefficiency. The paper proposes the Multi-Agent Adaptive Kalman Temporal
Difference (MAK-TD) framework and its Successor Representation-based variant,
referred to as the MAK-SR. Intuitively speaking, the main objective is to
capitalize on unique characteristics of Kalman Filtering (KF) such as
uncertainty modeling and online second order learning. The proposed MAK-TD/SR
frameworks consider the continuous nature of the action-space that is
associated with high dimensional multi-agent environments and exploit Kalman
Temporal Difference (KTD) to address the parameter uncertainty. By leveraging
the KTD framework, SR learning procedure is modeled into a filtering problem,
where Radial Basis Function (RBF) estimators are used to encode the continuous
space into feature vectors. On the other hand, for learning localized reward
functions, we resort to Multiple Model Adaptive Estimation (MMAE), to deal with
the lack of prior knowledge on the observation noise covariance and observation
mapping function. The proposed MAK-TD/SR frameworks are evaluated via several
experiments, which are implemented through the OpenAI Gym MARL benchmarks.
- Abstract(参考訳): 分散マルチエージェント強化学習(MARL)アルゴリズムは近年,近年のDeep Neural Networks (DNN) の進展を中心に注目されている。
従来のモデルベース(MB)またはモデルフリー(MF)RLアルゴリズムは、基礎となる値関数の学習に固定報酬モデルを利用するため、MARL問題に直接適用できない。
DNNベースのソリューションは、単一のエージェントが関与している場合、完全にうまく機能するが、そのような方法はMARL問題の複雑さに完全に一般化することができない。
言い換えれば、最近開発されたマルチエージェント環境のためのDNNに基づくアプローチは、性能が優れているが、過度に適合し、パラメータ選択に対する感度が高く、サンプルの非効率性が低い。
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
直感的に言えば、主な目的は不確実性モデリングやオンライン2次学習といったカルマンフィルタ(KF)の特徴を活かすことである。
提案するmak-td/srフレームワークは、高次元マルチエージェント環境に関連するアクション空間の連続性を検討し、kalman temporal difference (ktd) を利用してパラメータの不確実性に対処する。
KTDフレームワークを利用することで、SR学習手順をフィルタ問題にモデル化し、ラジアル基底関数(RBF)推定器を用いて連続空間を特徴ベクトルに符号化する。
一方、局所的な報酬関数を学習するためには、観測ノイズの共分散と観測マッピング関数に関する事前知識の欠如に対処するため、MMAE(Multiple Model Adaptive Estimation)を用いる。
提案するMAK-TD/SRフレームワークは,OpenAI Gym MARLベンチマークを用いて,いくつかの実験により評価される。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
RMGがマルチ緊急の呪いから逃れられるかどうか。
これは、RMGに対するマルチ緊急の呪いを破る最初のアルゴリズムである。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。
VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。
VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T00:41:32Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文 参考訳(メタデータ) (2020-05-30T06:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。