論文の概要: Non-decreasing Quantile Function Network with Efficient Exploration for
Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.06696v1
- Date: Fri, 14 May 2021 08:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:53:13.285388
- Title: Non-decreasing Quantile Function Network with Efficient Exploration for
Distributional Reinforcement Learning
- Title(参考訳): 分布強化学習のための効率的探索による非減少分位関数ネットワーク
- Authors: Fan Zhou, Zhoufan Zhu, Qi Kuang, Liwen Zhang
- Abstract要約: まず、得られた量子関数推定の単調性を保証するために、非減少量子関数ネットワーク(NDQFN)を提案する。
次に、量子関数全体の分布を利用する分布予測誤差(DPE)と呼ばれる一般的な探索フレームワークを設計する。
- 参考スコア(独自算出の注目度): 14.967168108174466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although distributional reinforcement learning (DRL) has been widely examined
in the past few years, there are two open questions people are still trying to
address. One is how to ensure the validity of the learned quantile function,
the other is how to efficiently utilize the distribution information. This
paper attempts to provide some new perspectives to encourage the future
in-depth studies in these two fields. We first propose a non-decreasing
quantile function network (NDQFN) to guarantee the monotonicity of the obtained
quantile estimates and then design a general exploration framework called
distributional prediction error (DPE) for DRL which utilizes the entire
distribution of the quantile function. In this paper, we not only discuss the
theoretical necessity of our method but also show the performance gain it
achieves in practice by comparing with some competitors on Atari 2600 Games
especially in some hard-explored games.
- Abstract(参考訳): 流通強化学習(distributional reinforcement learning, drl)はここ数年、広く検討されてきたが、人々がまだ対処しようとしている2つのオープン質問がある。
一つは、学習された分位関数の妥当性を保証する方法、もう一つは、分布情報の効率的な活用方法である。
本稿では,これら2つの分野の深層研究を促進するために,新たな視点を提供する。
まず、得られた量子関数の推定値の単調性を保証するための非減少量子関数ネットワーク(NDQFN)を提案し、次いで、量子関数全体の分布を利用するDRLのための分布予測誤差(DPE)と呼ばれる一般的な探索フレームワークを設計する。
本稿では,本手法の理論的必要性を論じるだけでなく,特にハード探索ゲームにおいて,Atari 2600 Gamesの競技者との比較により,実際に達成した性能向上を示す。
関連論文リスト
- Generalized Cauchy-Schwarz Divergence and Its Deep Learning Applications [37.349358118385155]
多様性の尺度は、深層学習において中心的な役割を担い、ますます不可欠になりつつある。
一般化コーシーシュワルツ発散(GCSD)と呼ばれる複数の分布に適した新しい測度を導入する。
論文 参考訳(メタデータ) (2024-05-07T07:07:44Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Learning General World Models in a Handful of Reward-Free Deployments [53.06205037827802]
汎用エージェントの構築は、深層強化学習(RL)における大きな課題である
本稿では,新しい環境下での自己監督型探査手法であるCASCADEについて紹介する。
我々は,CASCADEが多様なタスク非依存のデータセットを収集し,ゼロショットから新規で目に見えない下流タスクへのエージェント学習を行うことを示す。
論文 参考訳(メタデータ) (2022-10-23T12:38:03Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Distributed Deep Reinforcement Learning: An Overview [0.0]
本稿では,DRLにおける分散アプローチの役割について調査する。
本稿では,DRLにおける分散手法の活用方法に大きな影響を与える重要な研究成果について概説する。
また,これらの手法を異なるタスクで評価し,その性能を1人のアクターと学習者エージェントで比較する。
論文 参考訳(メタデータ) (2020-11-22T13:24:35Z) - Diversity Helps: Unsupervised Few-shot Learning via Distribution
Shift-based Data Augmentation [21.16237189370515]
ほんの少しのトレーニング例があれば、新しい概念を学ぶことが目的だ。
本稿では、分散シフトに基づくデータ拡張による教師なしFew-shot Learningと呼ばれる新しいフレームワークを開発する。
実験では、ULDAによって学習された少数ショットモデルにより、より優れた一般化性能が得られる。
論文 参考訳(メタデータ) (2020-04-13T07:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。