論文の概要: Model based Multi-agent Reinforcement Learning with Tensor
Decompositions
- arxiv url: http://arxiv.org/abs/2110.14524v1
- Date: Wed, 27 Oct 2021 15:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 16:16:04.502301
- Title: Model based Multi-agent Reinforcement Learning with Tensor
Decompositions
- Title(参考訳): テンソル分解を用いたモデルベースマルチエージェント強化学習
- Authors: Pascal Van Der Vaart, Anuj Mahajan, Shimon Whiteson
- Abstract要約: 本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
- 参考スコア(独自算出の注目度): 52.575433758866936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A challenge in multi-agent reinforcement learning is to be able to generalize
over intractable state-action spaces. Inspired from Tesseract [Mahajan et al.,
2021], this position paper investigates generalisation in state-action space
over unexplored state-action pairs by modelling the transition and reward
functions as tensors of low CP-rank. Initial experiments on synthetic MDPs show
that using tensor decompositions in a model-based reinforcement learning
algorithm can lead to much faster convergence if the true transition and reward
functions are indeed of low rank.
- Abstract(参考訳): 多エージェント強化学習の課題は、難解な状態-作用空間を一般化できることである。
Tesseract [Mahajan et al., 2021] から着想を得たこのポジションペーパーは、CPランクの低いテンソルとして遷移と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を研究する。
合成MDPの初期実験は、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束をもたらすことを示した。
関連論文リスト
- Low-Rank Tensor Learning by Generalized Nonconvex Regularization [25.115066273660478]
低ランクテンソル学習の問題点について検討し, 基礎となるテンソルを観測するサンプルはごくわずかである。
非テンソル学習関数の族は、基礎となるテンソルの低ランク性を特徴づけるために用いられる。
結果の大量化最小化を解決するために設計されたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T03:33:20Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Reinforcement Learning in Factored Action Spaces using Tensor
Decompositions [92.05556163518999]
本稿では, テンソル分解を用いた大規模因子化行動空間における強化学習(RL)のための新しい解を提案する。
我々は,協調型マルチエージェント強化学習シナリオを模範として用いた。
論文 参考訳(メタデータ) (2021-10-27T15:49:52Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Multi-mode Core Tensor Factorization based Low-Rankness and Its
Applications to Tensor Completion [0.0]
低ランクテンソル補完はコンピュータや機械学習で広く使われている。
本稿では,マルチモーダルテンソル化アルゴリズム(MCTF)と低ランク度尺度を併用し,より優れた非スペクトル緩和形式を提案する。
論文 参考訳(メタデータ) (2020-12-03T13:57:00Z) - Towards Flexible Sparsity-Aware Modeling: Automatic Tensor Rank Learning
Using The Generalized Hyperbolic Prior [24.848237413017937]
正準多進分解(CPD)のためのランク学習は、長い間必須だが難しい問題とみなされてきた。
テンソルランクの最適決定は、非決定論的時間ハード(NP-hard)タスクであることが知られている。
本稿では,確率論的モデリングモデルに先立って,より高度な一般化双曲型(GH)を導入する。
論文 参考訳(メタデータ) (2020-09-05T06:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。