論文の概要: Reinforcement Learning in Factored Action Spaces using Tensor
Decompositions
- arxiv url: http://arxiv.org/abs/2110.14538v1
- Date: Wed, 27 Oct 2021 15:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 15:59:31.514642
- Title: Reinforcement Learning in Factored Action Spaces using Tensor
Decompositions
- Title(参考訳): テンソル分解を用いた因子的行動空間の強化学習
- Authors: Anuj Mahajan, Mikayel Samvelyan, Lei Mao, Viktor Makoviychuk, Animesh
Garg, Jean Kossaifi, Shimon Whiteson, Yuke Zhu, Animashree Anandkumar
- Abstract要約: 本稿では, テンソル分解を用いた大規模因子化行動空間における強化学習(RL)のための新しい解を提案する。
我々は,協調型マルチエージェント強化学習シナリオを模範として用いた。
- 参考スコア(独自算出の注目度): 92.05556163518999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an extended abstract for the previously published work TESSERACT
[Mahajan et al., 2021], which proposes a novel solution for Reinforcement
Learning (RL) in large, factored action spaces using tensor decompositions. The
goal of this abstract is twofold: (1) To garner greater interest amongst the
tensor research community for creating methods and analysis for approximate RL,
(2) To elucidate the generalised setting of factored action spaces where tensor
decompositions can be used. We use cooperative multi-agent reinforcement
learning scenario as the exemplary setting where the action space is naturally
factored across agents and learning becomes intractable without resorting to
approximation on the underlying hypothesis space for candidate solutions.
- Abstract(参考訳): 本稿では, テンソル分解を用いた大規模因子化作用空間における強化学習(RL)の新たな解法を提案する, 以前に発表されたTESSERACT [Mahajan et al., 2021] の抽象的拡張について述べる。
この要約の目標は2つある:(1)テンソル研究コミュニティの間で、近似 rl の手法と解析法を作成すること、(2)テンソル分解が使用可能な因子付きアクション空間の一般化設定を明らかにすることである。
本研究では, エージェント間で自然に作用空間を分解し, 候補解に対する仮説空間の近似に頼らずに学習が難解となるような, 協調型マルチエージェント強化学習シナリオを例示する。
関連論文リスト
- Off-Policy Reinforcement Learning with High Dimensional Reward [1.7297899469367062]
分布RL(DRL)は、ユークリッド空間における分布ベルマン作用素とのリターンの分布を研究する。
報酬空間が無限次元可分バナッハ空間であっても、ベルマン作用素の縮約性を証明する。
従来の強化学習手法を用いて,これまで難解であった問題に対処する新しいDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-14T16:44:56Z) - Strongly Isomorphic Neural Optimal Transport Across Incomparable Spaces [7.535219325248997]
本稿ではGromov-Monge問題の基本的性質の1つに根ざした新しいニューラルな定式化について述べる。
学習可能なOTマップを2つのコンポーネントに分解することで、この特性を運用する。
我々のフレームワークは、様々な空間にわたるOTマップを学習するための有望なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-20T18:27:11Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Supervised learning of sheared distributions using linearized optimal
transport [64.53761005509386]
本稿では,確率測度空間における教師付き学習課題について検討する。
最適輸送フレームワークを用いて確率測度の空間を$L2$空間に埋め込むことでこの問題に対処する。
正規の機械学習技術は線形分離性を達成するために使われる。
論文 参考訳(メタデータ) (2022-01-25T19:19:59Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。