論文の概要: Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2005.12254v1
- Date: Mon, 25 May 2020 17:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:12:36.443263
- Title: Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning
- Title(参考訳): シングルタスクマルチシーン強化学習における動的値推定
- Authors: Jaskirat Singh and Liang Zheng
- Abstract要約: 同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
- 参考スコア(独自算出の注目度): 22.889059874754242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep reinforcement learning agents on environments with multiple
levels / scenes / conditions from the same task, has become essential for many
applications aiming to achieve generalization and domain transfer from
simulation to the real world. While such a strategy is helpful with
generalization, the use of multiple scenes significantly increases the variance
of samples collected for policy gradient computations. Current methods continue
to view this collection of scenes as a single Markov Decision Process (MDP)
with a common value function; however, we argue that it is better to treat the
collection as a single environment with multiple underlying MDPs. To this end,
we propose a dynamic value estimation (DVE) technique for these multiple-MDP
environments, motivated by the clustering effect observed in the value function
distribution across different scenes. The resulting agent is able to learn a
more accurate and scene-specific value function estimate (and hence the
advantage function), leading to a lower sample variance. Our proposed approach
is simple to accommodate with several existing implementations (like PPO, A3C)
and results in consistent improvements for a range of ProcGen environments and
the AI2-THOR framework based visual navigation task.
- Abstract(参考訳): 同じタスクから複数のレベル/シーン/条件を持つ環境での深層強化学習エージェントのトレーニングは、シミュレーションから現実世界への一般化とドメイン転送を達成するために多くのアプリケーションにとって不可欠である。
このような戦略は一般化に有効であるが、複数のシーンを使用すると、ポリシー勾配計算のために収集されたサンプルの分散が著しく増加する。
現在のメソッドでは、このシーンの集まりを共通の値関数を持つ単一のマルコフ決定プロセス(mdp)として捉えていますが、複数の下位mdpを持つ単一の環境として扱う方がよいと思います。
そこで本研究では,様々な場面における値関数分布で観測されるクラスタリング効果を動機とするマルチマルチmdp環境における動的値推定(dve)手法を提案する。
得られたエージェントは、より正確でシーン固有の値関数の推定(従って有利関数)を学習することができ、サンプルのばらつきが小さくなる。
提案手法は,既存の実装(PPO,A3Cなど)に対応することが簡単で,ProcGen環境やAI2-THORフレームワークベースのビジュアルナビゲーションタスクの一貫性が向上する。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Dynamic Policy-Driven Adaptive Multi-Instance Learning for Whole Slide
Image Classification [26.896926631411652]
マルチインスタンスラーニング (MIL) は, バッグや疑似バッグを用いた病理組織像全体(WSI)解析において, 優れた性能を示した。
既存のMILベースの技術は、少なくとも1つ以上の問題に悩まされている: 1) 多数のインスタンスに対して高いストレージと集中的な事前処理を必要とすること(サンプリング)、2) バッグラベルを予測するための限られた知識を持つ潜在的な過剰適合(機能表現)、3) 擬似バグカウントと事前バイアスはモデルの堅牢性と一般化可能性(意思決定)に影響を与える。
論文 参考訳(メタデータ) (2024-03-09T04:43:24Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Sparse Attention Guided Dynamic Value Estimation for Single-Task
Multi-Scene Reinforcement Learning [16.910911657616005]
同じタスクから複数のレベル/シーンを持つ環境で深い強化学習エージェントを訓練することは、多くのアプリケーションにとって不可欠です。
マルチシーン環境におけるサンプルのばらつきは,各シーンを個別のMDPとして扱うことで最小化できると論じる。
また,従来のCNN/LSTMに基づく批判ネットワークでは捉えられていないマルチシーン環境における真のジョイント値関数が,マルチモーダル分布に従うことを示した。
論文 参考訳(メタデータ) (2021-02-14T23:30:13Z) - Enhanced Scene Specificity with Sparse Dynamic Value Estimation [22.889059874754242]
マルチシーン強化学習は多くのアプリケーションに欠かせないものとなっている。
分散低減のための一つの戦略は、各シーンを別のマルコフ決定過程(MDP)として考えることである。
本稿では,真のシーン固有値関数と予測された動的推定値との誤差を,スパースクラスタ割り当てを段階的に実施することで,さらに低減することができると論じる。
論文 参考訳(メタデータ) (2020-11-25T08:35:16Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。