論文の概要: On the impact of MDP design for Reinforcement Learning agents in
Resource Management
- arxiv url: http://arxiv.org/abs/2109.03202v1
- Date: Tue, 7 Sep 2021 17:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:40:31.773968
- Title: On the impact of MDP design for Reinforcement Learning agents in
Resource Management
- Title(参考訳): 資源管理における強化学習エージェントのMDP設計の影響について
- Authors: Renato Luiz de Freitas Cunha, Luiz Chaimowicz
- Abstract要約: 我々は,MDPの4つのバリエーションを比較し,その計算要求とエージェント性能への影響を論じる。
マルチレイヤ・パーセプトロンを近似関数として使用する場合、コンパクトな状態表現は環境間のエージェントの移動を可能にする。
- 参考スコア(独自算出の注目度): 0.8223798883838329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent progress in Reinforcement Learning applications to Resource
Management presents MDPs without a deeper analysis of the impacts of design
decisions on agent performance. In this paper, we compare and contrast four
different MDP variations, discussing their computational requirements and
impacts on agent performance by means of an empirical analysis. We conclude by
showing that, in our experiments, when using Multi-Layer Perceptrons as
approximation function, a compact state representation allows transfer of
agents between environments, and that transferred agents have good performance
and outperform specialized agents in 80\% of the tested scenarios, even without
retraining.
- Abstract(参考訳): リソース管理への強化学習アプリケーションの最近の進歩は、設計決定がエージェントのパフォーマンスに与える影響を深く分析することなくmdpを提供する。
本稿では,4種類のMDP変動を比較比較・比較し,その計算条件とエージェント性能への影響を経験的分析により検討する。
実験の結果,マルチレイヤ・パーセプトロンを近似関数として使用する場合,環境間のエージェントの移動が可能であり,移動エージェントの性能は良好であり,テストシナリオの80%において,再トレーニングを伴わずに特殊エージェントよりも優れていた。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - DeepAveragers: Offline Reinforcement Learning by Solving Derived
Non-Parametric MDPs [47.73837217824527]
静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。
我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
論文 参考訳(メタデータ) (2020-10-18T00:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。