論文の概要: Tensor Decomposition for Multi-agent Predictive State Representation
- arxiv url: http://arxiv.org/abs/2005.13706v1
- Date: Wed, 27 May 2020 23:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:52:48.050283
- Title: Tensor Decomposition for Multi-agent Predictive State Representation
- Title(参考訳): マルチエージェント予測状態表現のためのテンソル分解
- Authors: Bilian Chen, Biyang Ma, Yifeng Zeng, Langcai Cao, Jing Tang
- Abstract要約: 予測状態表現(PSR)は、行動観測シーケンスのベクトルを用いてシステムの力学を表現し、その後の事象の確率を予測する。
我々の知る限りでは、マルチエージェント計画問題の解決にPSRを使用するための作業は存在しない。
本稿では,マルチエージェントPSRモデル開発における課題に取り組むために,テンソル手法を用いる。
- 参考スコア(独自算出の注目度): 9.31240514472537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive state representation~(PSR) uses a vector of action-observation
sequence to represent the system dynamics and subsequently predicts the
probability of future events. It is a concise knowledge representation that is
well studied in a single-agent planning problem domain. To the best of our
knowledge, there is no existing work on using PSR to solve multi-agent planning
problems. Learning a multi-agent PSR model is quite difficult especially with
the increasing number of agents, not to mention the complexity of a problem
domain. In this paper, we resort to tensor techniques to tackle the challenging
task of multi-agent PSR model development problems. By first focusing on a
two-agent setting, we construct the system dynamics matrix as a high order
tensor for a PSR model, learn the prediction parameters and deduce state
vectors directly through two different tensor decomposition methods
respectively, and derive the transition parameters via linear regression.
Subsequently, we generalize the PSR learning approaches in a multi-agent
setting. Experimental results show that our methods can effectively solve
multi-agent PSR modelling problems in multiple problem domains.
- Abstract(参考訳): 予測状態表現~(PSR)は行動観測シーケンスのベクトルを用いてシステムの力学を表現し、その後の事象の確率を予測する。
単一エージェント計画問題領域でよく研究されている簡潔な知識表現である。
我々の知る限りでは、マルチエージェント計画問題の解決にPSRを使用するための作業は存在しない。
マルチエージェントPSRモデルを学ぶことは、特に問題領域の複雑さを言うまでもなく、エージェントの数が増えれば非常に難しい。
本稿では,マルチエージェントPSRモデル開発における課題に取り組むために,テンソル手法を用いる。
まず,2エージェント設定に着目し,psrモデルの高次テンソルとしてシステムダイナミクス行列を構築し,予測パラメータと状態ベクトルを直接2つの異なるテンソル分解法で学習し,線形回帰による遷移パラメータを導出する。
その後、マルチエージェント設定でPSR学習アプローチを一般化する。
実験の結果,複数の問題領域におけるマルチエージェントpsrモデリング問題を効果的に解くことができた。
関連論文リスト
- Causal Graph ODE: Continuous Treatment Effect Modeling in Multi-agent
Dynamical Systems [70.84976977950075]
実世界のマルチエージェントシステムは、しばしば動的で連続的であり、エージェントは時間とともにその軌道や相互作用を共進化させ、変化させる。
本稿では,グラフニューラルネットワーク(GNN)をODE関数として,エージェント間の連続的な相互作用をキャプチャする新しいモデルを提案する。
我々のモデルの主な革新は、治療の時間依存表現を学習し、ODE関数にそれらを組み込むことで、潜在的な結果の正確な予測を可能にすることである。
論文 参考訳(メタデータ) (2024-02-29T23:07:07Z) - PGODE: Towards High-quality System Dynamics Modeling [40.76121531452706]
本稿では,エージェントが相互に相互作用して動作に影響を与えるマルチエージェント力学系をモデル化する問題について検討する。
最近の研究では、主に幾何学グラフを用いてこれらの相互相互作用を表現し、グラフニューラルネットワーク(GNN)によって捉えられている。
本稿では,プロトタイプグラフODE(Prototypeal Graph ODE)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-11T12:04:47Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Random Feature Models for Learning Interacting Dynamical Systems [2.563639452716634]
エージェントの経路のノイズ観測から直接相互作用力のデータに基づく近似を構築することの問題点を考察する。
学習された相互作用カーネルは、長い時間間隔でエージェントの振る舞いを予測するために使用される。
さらに,カーネル評価コストを削減し,マルチエージェントシステムのシミュレーションコストを大幅に削減する。
論文 参考訳(メタデータ) (2022-12-11T20:09:36Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Multi-Agent Reinforcement Learning is a Sequence Modeling Problem [33.679936867612525]
マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。
MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。
MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
論文 参考訳(メタデータ) (2022-05-30T09:39:45Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。