論文の概要: Mixture of Step Returns in Bootstrapped DQN
- arxiv url: http://arxiv.org/abs/2007.08229v1
- Date: Thu, 16 Jul 2020 10:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 21:46:51.224155
- Title: Mixture of Step Returns in Bootstrapped DQN
- Title(参考訳): ブートストラップDQNにおけるステップリターンの混合
- Authors: Po-Han Chiang, Hsuan-Kung Yang, Zhang-Wei Hong and Chun-Yi Lee
- Abstract要約: 異なるバックアップ長さで値関数を更新することは、異なる面で利点をもたらす。
ステップリターンをひとつのターゲットに統合することは、異なるステップリターンターゲットによって提供されるメリットの多様性を犠牲にする。
ブートストラップDQN上に構築されたMixture Bootstrapped DQN(MB-DQN)を提案する。
- 参考スコア(独自算出の注目度): 14.37435170732735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The concept of utilizing multi-step returns for updating value functions has
been adopted in deep reinforcement learning (DRL) for a number of years.
Updating value functions with different backup lengths provides advantages in
different aspects, including bias and variance of value estimates, convergence
speed, and exploration behavior of the agent. Conventional methods such as
TD-lambda leverage these advantages by using a target value equivalent to an
exponential average of different step returns. Nevertheless, integrating step
returns into a single target sacrifices the diversity of the advantages offered
by different step return targets. To address this issue, we propose Mixture
Bootstrapped DQN (MB-DQN) built on top of bootstrapped DQN, and uses different
backup lengths for different bootstrapped heads. MB-DQN enables heterogeneity
of the target values that is unavailable in approaches relying only on a single
target value. As a result, it is able to maintain the advantages offered by
different backup lengths. In this paper, we first discuss the motivational
insights through a simple maze environment. In order to validate the
effectiveness of MB-DQN, we perform experiments on the Atari 2600 benchmark
environments, and demonstrate the performance improvement of MB-DQN over a
number of baseline methods. We further provide a set of ablation studies to
examine the impacts of different design configurations of MB-DQN.
- Abstract(参考訳): 値関数の更新に多段階の戻り値を利用するという概念は,近年,深層強化学習(DRL)において採用されてきた。
異なるバックアップ長で値関数を更新することは、値推定のバイアスや分散、収束速度、エージェントの探索行動など、さまざまな面での利点を提供する。
TD-lambdaのような従来の方法は、異なるステップ戻りの指数平均に相当するターゲット値を使用することで、これらの利点を利用する。
それでも、ステップリターンをひとつのターゲットに統合することは、異なるステップリターンターゲットが提供するメリットの多様性を犠牲にする。
この問題を解決するために、ブートストラップDQN上に構築されたMixture Bootstrapped DQN(MB-DQN)を提案し、異なるブートストラップヘッドに対して異なるバックアップ長を使用する。
MB-DQNは、単一のターゲット値のみに依存するアプローチでは利用できないターゲット値の不均一性を実現する。
その結果、異なるバックアップ長によって提供される利点を維持できる。
本稿では,まず,単純な迷路環境を通してのモチベーション的洞察について論じる。
MB-DQNの有効性を検証するため,Atari 2600ベンチマーク環境で実験を行い,多数のベースライン手法によるMB-DQNの性能改善を実証した。
さらに,mb-dqnの異なる設計構成の影響を調べるため,アブレーション研究のセットを提供する。
関連論文リスト
- Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - Benchmark tasks for Quality-Diversity applied to Uncertain domains [1.5469452301122175]
実装が容易で軽量な8つのタスクを3つのカテゴリに分けて紹介します。
我々は、UQDベンチマークタスクを簡単に定義するための重要な不確実性を特定する。
私たちのタスクはすべて、Redundant Arm上に構築されています。
論文 参考訳(メタデータ) (2023-04-24T21:23:26Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - Forgetting to Remember: A Scalable Incremental Learning Framework for
Cross-Task Blind Image Quality Assessment [25.67247922033185]
本稿では,メモリ容量に制限のある複数の評価タスクに対して,ブラインド画像品質評価(BIQA)を順次実施可能な拡張段階学習フレームワーク(SILF)を提案する。
逐次学習におけるメモリ容量の非制限拡大を抑制するため,未重要ニューロンをパラメータサブセットから徐々に選択的に抽出し,スケーラブルなメモリユニットを開発する。
論文 参考訳(メタデータ) (2022-09-15T08:19:12Z) - Sampling Efficient Deep Reinforcement Learning through Preference-Guided
Stochastic Exploration [8.612437964299414]
我々は、Deep Q-network (DQN) のための選好誘導$epsilon$-greedy探索アルゴリズムを提案する。
選好誘導探索はDQNエージェントの多様な行動、すなわちより大きなQ値のアクションをより頻繁にサンプリングできるのに対して、より小さなQ値のアクションは依然として探索可能な機会を持ち、探索を促進することを示している。
論文 参考訳(メタデータ) (2022-06-20T08:23:49Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Modified Double DQN: addressing stability [0.2867517731896504]
Double-DQN (DDQN) アルゴリズムは元々、元のDQNアルゴリズムの過大評価問題に対処するために提案された。
DDQNアルゴリズムの安定性と過大評価の両面での性能を維持するために、3つの改良が提案されている。
論文 参考訳(メタデータ) (2021-08-09T15:27:22Z) - Reinforced Few-Shot Acquisition Function Learning for Bayesian
Optimization [6.2283964963356295]
また, ブラックボックス機能の違いにより, 最良性能のAFが有意に異なることが観察された。
本稿では,この課題に対して,FSAF(Reforceed few-shot AF learning)の観点から対処することを目的とする。
FSAFは、さまざまな合成および実世界のテスト機能に関する最先端のベンチマークよりも、同等またはより良い後悔を達成していることを示す。
論文 参考訳(メタデータ) (2021-06-08T13:46:46Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。