論文の概要: Simple Agent, Complex Environment: Efficient Reinforcement Learning with
Agent State
- arxiv url: http://arxiv.org/abs/2102.05261v1
- Date: Wed, 10 Feb 2021 04:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:48:26.159510
- Title: Simple Agent, Complex Environment: Efficient Reinforcement Learning with
Agent State
- Title(参考訳): 単純エージェント・複雑環境:エージェント状態を用いた効率的な強化学習
- Authors: Shi Dong, Benjamin Van Roy, Zhengyuan Zhou
- Abstract要約: 任意の環境で動作可能な簡易強化学習エージェントを設計する。
エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。
環境状態の数や、他の政策や歴史統計に関連付けられた混合時間に、これ以上依存することはない。
- 参考スコア(独自算出の注目度): 35.69801203107371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design a simple reinforcement learning agent that, with a specification
only of agent state dynamics and a reward function, can operate with some
degree of competence in any environment. The agent maintains only visitation
counts and value estimates for each agent-state-action pair. The value function
is updated incrementally in response to temporal differences and optimistic
boosts that encourage exploration. The agent executes actions that are greedy
with respect to this value function. We establish a regret bound demonstrating
convergence to near-optimal per-period performance, where the time taken to
achieve near-optimality is polynomial in the number of agent states and
actions, as well as the reward mixing time of the best policy within the
reference policy class, which is comprised of those that depend on history only
through agent state. Notably, there is no further dependence on the number of
environment states or mixing times associated with other policies or statistics
of history. Our result sheds light on the potential benefits of (deep)
representation learning, which has demonstrated the capability to extract
compact and relevant features from high-dimensional interaction histories.
- Abstract(参考訳): 我々は,エージェント状態ダイナミクスと報酬関数のみの仕様により,任意の環境においてある程度の能力で動作可能な簡易強化学習エージェントを設計した。
エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。
時間差や探索を促進する楽観的なブーストに応じて、値関数はインクリメンタルに更新されます。
エージェントは、この値関数に関して欲張りなアクションを実行します。
エージェント状態とアクションの数において、最適に近い状態を達成するのに要する時間は多項式であり、また、エージェント状態を通してのみ履歴に依存するものからなる参照ポリシークラス内の最良のポリシーの報酬混合時間である。
特に、他の政策や歴史統計に関連付けられた環境状態の数や混合時間に、これ以上依存することはない。
その結果、高次元の相互作用履歴からコンパクトで関連性の高い特徴を抽出する能力を示した(深層)表現学習の潜在的な利点が明らかになった。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Towards a more efficient computation of individual attribute and policy
contribution for post-hoc explanation of cooperative multi-agent systems
using Myerson values [0.0]
チームにおけるエージェントのグローバルな重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって、金と同じくらいの価値がある。
マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。
提案手法を,Deep Reinforcement Learningを通じて得られたハードコードされたポリシーとポリシーの両方をデプロイする実例実証環境で検証する。
論文 参考訳(メタデータ) (2022-12-06T15:15:00Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Multi-agent Actor-Critic with Time Dynamical Opponent Model [16.820873906787906]
多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。
本稿では,TDOM(textitTime Dynamical Opponent Model)を提案する。
我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-12T07:16:15Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。