論文の概要: Sparse Attention Guided Dynamic Value Estimation for Single-Task
Multi-Scene Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.07266v1
- Date: Sun, 14 Feb 2021 23:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 19:32:33.181832
- Title: Sparse Attention Guided Dynamic Value Estimation for Single-Task
Multi-Scene Reinforcement Learning
- Title(参考訳): 単一タスクマルチシーン強化学習のためのスパースアテンションガイド動的値推定
- Authors: Jaskirat Singh, Liang Zheng
- Abstract要約: 同じタスクから複数のレベル/シーンを持つ環境で深い強化学習エージェントを訓練することは、多くのアプリケーションにとって不可欠です。
マルチシーン環境におけるサンプルのばらつきは,各シーンを個別のMDPとして扱うことで最小化できると論じる。
また,従来のCNN/LSTMに基づく批判ネットワークでは捉えられていないマルチシーン環境における真のジョイント値関数が,マルチモーダル分布に従うことを示した。
- 参考スコア(独自算出の注目度): 16.910911657616005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training deep reinforcement learning agents on environments with multiple
levels / scenes from the same task, has become essential for many applications
aiming to achieve generalization and domain transfer from simulation to the
real world. While such a strategy is helpful with generalization, the use of
multiple scenes significantly increases the variance of samples collected for
policy gradient computations. Current methods, effectively continue to view
this collection of scenes as a single Markov decision process (MDP), and thus
learn a scene-generic value function V(s). However, we argue that the sample
variance for a multi-scene environment is best minimized by treating each scene
as a distinct MDP, and then learning a joint value function V(s,M) dependent on
both state s and MDP M. We further demonstrate that the true joint value
function for a multi-scene environment, follows a multi-modal distribution
which is not captured by traditional CNN / LSTM based critic networks. To this
end, we propose a dynamic value estimation (DVE) technique, which approximates
the true joint value function through a sparse attention mechanism over
multiple value function hypothesis / modes. The resulting agent not only shows
significant improvements in the final reward score across a range of OpenAI
ProcGen environments, but also exhibits enhanced navigation efficiency and
provides an implicit mechanism for unsupervised state-space skill
decomposition.
- Abstract(参考訳): シミュレーションから実世界への一般化とドメイン移行の実現を目指す多くのアプリケーションにおいて,複数のレベル/シーンを持つ環境における深層強化学習エージェントの訓練が不可欠となっている。
このような戦略は一般化に有効であるが、複数のシーンを使用すると、ポリシー勾配計算のために収集されたサンプルの分散が著しく増加する。
現在の方法は、このシーンのコレクションを単一のマルコフ決定プロセス(MDP)として効果的に見続け、したがってシーンジェネリック値関数V(s)を学ぶ。
しかし,マルチシーン環境におけるサンプルの分散は,各シーンを個別のMDPとして扱い,さらに,状態 s と MDP M に依存したジョイント値関数 V(s,M) を学習することで,最小限に抑えられ,また,マルチシーン環境における真のジョイント値関数は,従来のCNN/LSTMベースの批判ネットワークでは捉えられていないマルチモーダル分布に従うことを実証する。
そこで本論文では,多値関数仮説/モード上のスパースアテンション機構を用いて,真の関節値関数を近似する動的値推定(DVE)手法を提案する。
結果として得られるエージェントは、さまざまなOpenAI ProcGen環境における最終的な報酬スコアを大幅に改善するだけでなく、ナビゲーション効率を向上させ、監視されていない状態空間スキル分解の暗黙的なメカニズムを提供します。
関連論文リスト
- Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Enhanced Scene Specificity with Sparse Dynamic Value Estimation [22.889059874754242]
マルチシーン強化学習は多くのアプリケーションに欠かせないものとなっている。
分散低減のための一つの戦略は、各シーンを別のマルコフ決定過程(MDP)として考えることである。
本稿では,真のシーン固有値関数と予測された動的推定値との誤差を,スパースクラスタ割り当てを段階的に実施することで,さらに低減することができると論じる。
論文 参考訳(メタデータ) (2020-11-25T08:35:16Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T17:56:08Z) - Multi-Modal Domain Adaptation for Fine-Grained Action Recognition [35.22906271819216]
UDAのための自己教師付きアライメントアプローチとして,モーダルティの対応を利用する。
マルチモーダル・セルフ・スーパービジョンだけで、ソースのみのトレーニングよりも平均2.4%パフォーマンスが向上することを示す。
次に, 対人訓練とマルチモーダル・セルフスーパービジョンを組み合わせることで, アプローチが他のUDA手法よりも3%優れていたことを示す。
論文 参考訳(メタデータ) (2020-01-27T11:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。