論文の概要: What is Going on Inside Recurrent Meta Reinforcement Learning Agents?
- arxiv url: http://arxiv.org/abs/2104.14644v1
- Date: Thu, 29 Apr 2021 20:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 03:27:50.221663
- Title: What is Going on Inside Recurrent Meta Reinforcement Learning Agents?
- Title(参考訳): メタ強化学習エージェントの内部で何が起きているのか?
- Authors: Safa Alver, Doina Precup
- Abstract要約: recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
- 参考スコア(独自算出の注目度): 63.58053355357644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent meta reinforcement learning (meta-RL) agents are agents that employ
a recurrent neural network (RNN) for the purpose of "learning a learning
algorithm". After being trained on a pre-specified task distribution, the
learned weights of the agent's RNN are said to implement an efficient learning
algorithm through their activity dynamics, which allows the agent to quickly
solve new tasks sampled from the same distribution. However, due to the
black-box nature of these agents, the way in which they work is not yet fully
understood. In this study, we shed light on the internal working mechanisms of
these agents by reformulating the meta-RL problem using the Partially
Observable Markov Decision Process (POMDP) framework. We hypothesize that the
learned activity dynamics is acting as belief states for such agents. Several
illustrative experiments suggest that this hypothesis is true, and that
recurrent meta-RL agents can be viewed as agents that learn to act optimally in
partially observable environments consisting of multiple related tasks. This
view helps in understanding their failure cases and some interesting
model-based results reported in the literature.
- Abstract(参考訳): リカレントメタ強化学習(recurrent meta reinforcement learning、meta-RL)は、リカレントニューラルネットワーク(RNN)を用いて「学習アルゴリズムを学ぶ」エージェントである。
予め特定されたタスク分布をトレーニングした後、エージェントのRNNの学習重量は、そのアクティビティダイナミクスを通して効率的な学習アルゴリズムを実装し、エージェントは同じ分布からサンプリングされた新しいタスクを迅速に解くことができる。
しかし、これらのエージェントのブラックボックスの性質から、それらの動作方法はまだ完全には理解されていない。
本研究では, 部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより, これらのエージェントの内部動作機構を明らかにする。
我々は、学習された活動のダイナミクスがそのようなエージェントの信念状態として作用していると仮定する。
いくつかの実証実験は、この仮説が正しいことを示唆し、反復的なメタRLエージェントは複数の関連するタスクからなる部分的に観察可能な環境で最適な行動を学ぶエージェントと見なすことができる。
この見解は、彼らの失敗事例と、文献に報告された興味深いモデルに基づく結果を理解するのに役立つ。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Mechanistic Interpretability of Reinforcement Learning Agents [0.0]
本稿では、手続き的迷路環境下で訓練されたニューラルネットワークを用いて、強化学習(RL)エージェントの機械論的解釈可能性について検討する。
ネットワークの内部動作を分離することにより、迷路の壁や経路などの基本的な特徴を特定し、モデルの意思決定プロセスの基礎を形成しました。
論文 参考訳(メタデータ) (2024-10-30T21:02:50Z) - Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-10-18T19:43:38Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。