論文の概要: Evolution of Q Values for Deep Q Learning in Stable Baselines
- arxiv url: http://arxiv.org/abs/2004.11766v1
- Date: Fri, 24 Apr 2020 14:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 02:58:43.314674
- Title: Evolution of Q Values for Deep Q Learning in Stable Baselines
- Title(参考訳): 安定ベースラインにおける深部Q学習のためのQ値の進化
- Authors: Matthew Andrews, Cemil Dibek, Karina Palyutina
- Abstract要約: 安定ベースラインライブラリにおけるディープQラーニング(DQL)の実装のためのQ値の進化について検討する。
我々は、スマートなTrafficLight環境(パフォーマンスが貧弱な)とAIのGym FrozenLake環境(パフォーマンスが完璧である)を比較します。
DQLがTrafficLightと戦っているのは、アクションが可逆的であるため、ある状態のQ値がFrozenLakeよりも近いからです。
- 参考スコア(独自算出の注目度): 2.7264909680727833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the evolution of the Q values for the implementation of Deep Q
Learning (DQL) in the Stable Baselines library. Stable Baselines incorporates
the latest Reinforcement Learning techniques and achieves superhuman
performance in many game environments. However, for some simple non-game
environments, the DQL in Stable Baselines can struggle to find the correct
actions. In this paper we aim to understand the types of environment where this
suboptimal behavior can happen, and also investigate the corresponding
evolution of the Q values for individual states.
We compare a smart TrafficLight environment (where performance is poor) with
the AI Gym FrozenLake environment (where performance is perfect). We observe
that DQL struggles with TrafficLight because actions are reversible and hence
the Q values in a given state are closer than in FrozenLake. We then
investigate the evolution of the Q values using a recent decomposition
technique of Achiam et al.. We observe that for TrafficLight, the function
approximation error and the complex relationships between the states lead to a
situation where some Q values meander far from optimal.
- Abstract(参考訳): 安定ベースラインライブラリにおけるディープQ学習(DQL)の実装のためのQ値の進化について検討する。
安定ベースラインは最新の強化学習技術を取り入れ、多くのゲーム環境で超人的なパフォーマンスを達成する。
しかし、いくつかの単純な非ゲーム環境では、Stable BaselinesのDQLは正しいアクションを見つけるのに苦労する。
本稿では,この準最適行動が生じる環境のタイプを理解するとともに,個々の状態に対するQ値の対応する進化について検討する。
我々は、スマートなTrafficLight環境(パフォーマンスが貧弱な)とAI Gym FrozenLake環境(パフォーマンスが完璧である)を比較します。
DQLがTrafficLightと戦っているのは、アクションが可逆的であるため、ある状態のQ値がFrozenLakeよりも近いからです。
次に,最近のAchiamらによる分解手法を用いて,Q値の進化について検討する。
TrafficLightの場合、関数近似誤差と状態間の複雑な関係は、いくつかのQ値が最適から遠く離れている状況につながる。
関連論文リスト
- AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization [9.050431569438636]
暗黙のQ-ラーニングはオフラインRLの強力なベースラインとして機能する。
我々は,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介した。
IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。
論文 参考訳(メタデータ) (2024-05-28T14:01:03Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Towards QD-suite: developing a set of benchmarks for Quality-Diversity
algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。
我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文 参考訳(メタデータ) (2022-05-06T13:33:50Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - Lookahead-Bounded Q-Learning [8.738692817482526]
本稿では,新しいQ-ラーニング法であるルックアヘッドバウンドQ-ラーニングアルゴリズム(LBQL)を紹介する。
われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。
論文 参考訳(メタデータ) (2020-06-28T19:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。