論文の概要: Enhanced Scene Specificity with Sparse Dynamic Value Estimation
- arxiv url: http://arxiv.org/abs/2011.12574v1
- Date: Wed, 25 Nov 2020 08:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:02:36.066010
- Title: Enhanced Scene Specificity with Sparse Dynamic Value Estimation
- Title(参考訳): スパース動的値推定によるシーン特異性の向上
- Authors: Jaskirat Singh and Liang Zheng
- Abstract要約: マルチシーン強化学習は多くのアプリケーションに欠かせないものとなっている。
分散低減のための一つの戦略は、各シーンを別のマルコフ決定過程(MDP)として考えることである。
本稿では,真のシーン固有値関数と予測された動的推定値との誤差を,スパースクラスタ割り当てを段階的に実施することで,さらに低減することができると論じる。
- 参考スコア(独自算出の注目度): 22.889059874754242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-scene reinforcement learning involves training the RL agent across
multiple scenes / levels from the same task, and has become essential for many
generalization applications. However, the inclusion of multiple scenes leads to
an increase in sample variance for policy gradient computations, often
resulting in suboptimal performance with the direct application of traditional
methods (e.g. PPO, A3C). One strategy for variance reduction is to consider
each scene as a distinct Markov decision process (MDP) and learn a joint value
function dependent on both state (s) and MDP (M). However, this is non-trivial
as the agent is usually unaware of the underlying level at train / test times
in multi-scene RL. Recently, Singh et al. [1] tried to address this by
proposing a dynamic value estimation approach that models the true joint value
function distribution as a Gaussian mixture model (GMM). In this paper, we
argue that the error between the true scene-specific value function and the
predicted dynamic estimate can be further reduced by progressively enforcing
sparse cluster assignments once the agent has explored most of the state space.
The resulting agents not only show significant improvements in the final reward
score across a range of OpenAI ProcGen environments, but also exhibit increased
navigation efficiency while completing a game level.
- Abstract(参考訳): 多段階強化学習は、rlエージェントを同じタスクから複数のシーン/レベルにまたがって訓練することを含み、多くの一般化アプリケーションで必須となっている。
しかし、複数のシーンを組み込むことで、ポリシー勾配計算のサンプル分散が増加し、しばしば従来の手法(例えばPPO、A3C)の直接適用による最適以下の性能が向上する。
分散低減のための一つの戦略は、各シーンをマークフ決定過程(MDP)とみなし、状態(s)とMDP(M)の両方に依存する結合値関数を学ぶことである。
しかし、エージェントは通常、マルチシーンRLの列車/テスト時間における基盤レベルを知らないため、これは簡単ではない。
最近、Singh et al。
[1] は、真の結合値関数分布をガウス混合モデル(GMM)としてモデル化する動的値推定手法を提案した。
本稿では,エージェントが状態空間のほとんどを探索した後,スパースクラスタ割り当てを段階的に強制することにより,真のシーン固有値関数と予測動的推定値との誤差をさらに低減できることを示す。
結果として得られたエージェントは、openai procgen環境全体で最終報酬スコアが大幅に向上するだけでなく、ゲームレベルを完了しながらナビゲーション効率が向上する。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Sparse Attention Guided Dynamic Value Estimation for Single-Task
Multi-Scene Reinforcement Learning [16.910911657616005]
同じタスクから複数のレベル/シーンを持つ環境で深い強化学習エージェントを訓練することは、多くのアプリケーションにとって不可欠です。
マルチシーン環境におけるサンプルのばらつきは,各シーンを個別のMDPとして扱うことで最小化できると論じる。
また,従来のCNN/LSTMに基づく批判ネットワークでは捉えられていないマルチシーン環境における真のジョイント値関数が,マルチモーダル分布に従うことを示した。
論文 参考訳(メタデータ) (2021-02-14T23:30:13Z) - MAGMA: Inference and Prediction with Multi-Task Gaussian Processes [4.368185344922342]
タスク間で情報を共有するための共通平均プロセスを用いて,新しいマルチタスクガウスプロセス(GP)フレームワークを提案する。
私たちの全体的なアルゴリズムは textscMagma と呼ばれています(MeAn を用いた Multi tAsk Gaussian プロセスに対応しています)。
論文 参考訳(メタデータ) (2020-07-21T11:43:54Z) - Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T17:56:08Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。