論文の概要: A Tensor Network Implementation of Multi Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.03896v1
- Date: Mon, 8 Jan 2024 13:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:31:50.321776
- Title: A Tensor Network Implementation of Multi Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のためのテンソルネットワークの実装
- Authors: Sunny Howard
- Abstract要約: テンソルネットワーク(TN)は、単一エージェント有限マルコフ決定過程(FMDP)の期待した戻りを表現できる能力を持つ
この設定でTNを使用する大きな利点は、TNに特有の多くの確立された最適化と分解技術が存在することである。
情報損失を経験することなく, テンソル内の要素数を97.5%削減する, 正確な分解手法を実演する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently it has been shown that tensor networks (TNs) have the ability to
represent the expected return of a single-agent finite Markov decision process
(FMDP). The TN represents a distribution model, where all possible trajectories
are considered. When extending these ideas to a multi-agent setting,
distribution models suffer from the curse of dimensionality: the exponential
relation between the number of possible trajectories and the number of agents.
The key advantage of using TNs in this setting is that there exists a large
number of established optimisation and decomposition techniques that are
specific to TNs, that one can apply to ensure the most efficient representation
is found. In this report, these methods are used to form a TN that represents
the expected return of a multi-agent reinforcement learning (MARL) task. This
model is then applied to a 2 agent random walker example, where it was shown
that the policy is correctly optimised using a DMRG technique. Finally, I
demonstrate the use of an exact decomposition technique, reducing the number of
elements in the tensors by 97.5%, without experiencing any loss of information.
- Abstract(参考訳): 近年、テンソルネットワーク (TN) は、単一エージェント有限マルコフ決定過程 (FMDP) の返却を期待できる能力を持っていることが示されている。
TNは、全ての可能な軌道が考慮される分布モデルを表す。
これらのアイデアをマルチエージェント設定に拡張するとき、分布モデルは次元の呪い、つまり可能な軌道の数とエージェントの数の間の指数的関係に苦しむ。
この設定でTNを使うことの主な利点は、TNに固有の多くの確立された最適化と分解技術が存在し、最も効率的な表現が見つかるように適用できることである。
本報告では,これらの手法を用いて,マルチエージェント強化学習(MARL)タスクの復帰を期待するTNを形成する。
このモデルを2エージェントランダムウォーカの例に適用し、DMRG法を用いてポリシーが正しく最適化されていることを示した。
最後に、情報損失を経験することなく、テンソル内の要素数を97.5%削減する、正確な分解技術の使用を実演する。
関連論文リスト
- Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。
まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。
我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文 参考訳(メタデータ) (2024-10-22T17:45:45Z) - conv_einsum: A Framework for Representation and Fast Evaluation of
Multilinear Operations in Convolutional Tensorial Neural Networks [28.416123889998243]
本研究では,テンソル畳み込み層をeinsumのような文字列として表現するフレームワークと,FLOPを最小化してこれらの文字列を評価するメタアルゴリズムであるconv_einsumを開発する。
論文 参考訳(メタデータ) (2024-01-07T04:30:12Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MotionDiffuser: Controllable Multi-Agent Motion Prediction using
Diffusion [15.146808801331774]
MotionDiffuserは、複数のエージェント上での将来の軌跡の連成分布の拡散に基づく表現である。
そこで本稿では,コスト関数の相違に基づくトラジェクトリサンプリングを可能にする汎用的な制約付きサンプリングフレームワークを提案する。
我々は,Open Motionデータセット上でのマルチエージェント動作予測の最先端結果を得る。
論文 参考訳(メタデータ) (2023-06-05T17:55:52Z) - Deep Graph Neural Networks via Posteriori-Sampling-based Node-Adaptive Residual Module [65.81781176362848]
グラフニューラルネットワーク(GNN)は、近隣情報収集を通じてグラフ構造化データから学習することができる。
レイヤーの数が増えるにつれて、ノード表現は区別不能になり、オーバー・スムーシング(over-smoothing)と呼ばれる。
我々は,textbfPosterior-Sampling-based, Node-distinguish Residual Module (PSNR)を提案する。
論文 参考訳(メタデータ) (2023-05-09T12:03:42Z) - Low-Rank Tensor Function Representation for Multi-Dimensional Data
Recovery [52.21846313876592]
低ランクテンソル関数表現(LRTFR)は、無限解像度でメッシュグリッドを超えてデータを連続的に表現することができる。
テンソル関数に対する2つの基本的な概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。
提案手法は,最先端手法と比較して,提案手法の優越性と汎用性を裏付けるものである。
論文 参考訳(メタデータ) (2022-12-01T04:00:38Z) - Multi-Tensor Network Representation for High-Order Tensor Completion [25.759851542474447]
この研究は、部分的に観察されたサンプリングから高次元データ(テンソルを参照)の完備化の問題を研究する。
テンソルは複数の低ランク成分の重ね合わせであると考える。
本稿では,基本テンソル分解フレームワークであるMulti-Tensor Network decomposition (MTNR)を提案する。
論文 参考訳(メタデータ) (2021-09-09T03:50:19Z) - Adaptive Learning of Tensor Network Structures [6.407946291544721]
我々はTN形式を利用して汎用的で効率的な適応アルゴリズムを開発し、データからTNの構造とパラメータを学習する。
本アルゴリズムは,任意の微分対象関数を効果的に最適化する少数のパラメータでTN構造を適応的に同定することができる。
論文 参考訳(メタデータ) (2020-08-12T16:41:56Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。