論文の概要: Sampling Efficient Deep Reinforcement Learning through Preference-Guided
Stochastic Exploration
- arxiv url: http://arxiv.org/abs/2206.09627v1
- Date: Mon, 20 Jun 2022 08:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:51:40.230741
- Title: Sampling Efficient Deep Reinforcement Learning through Preference-Guided
Stochastic Exploration
- Title(参考訳): 選好誘導確率探索による高効率深層強化学習のサンプリング
- Authors: Wenhui Huang, Cong Zhang, Jingda Wu, Xiangkun He, Jie Zhang and Chen
Lv
- Abstract要約: 我々は、Deep Q-network (DQN) のための選好誘導$epsilon$-greedy探索アルゴリズムを提案する。
選好誘導探索はDQNエージェントの多様な行動、すなわちより大きなQ値のアクションをより頻繁にサンプリングできるのに対して、より小さなQ値のアクションは依然として探索可能な機会を持ち、探索を促進することを示している。
- 参考スコア(独自算出の注目度): 8.612437964299414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massive practical works addressed by Deep Q-network (DQN) algorithm have
indicated that stochastic policy, despite its simplicity, is the most
frequently used exploration approach. However, most existing stochastic
exploration approaches either explore new actions heuristically regardless of
Q-values or inevitably introduce bias into the learning process to couple the
sampling with Q-values. In this paper, we propose a novel preference-guided
$\epsilon$-greedy exploration algorithm that can efficiently learn the action
distribution in line with the landscape of Q-values for DQN without introducing
additional bias. Specifically, we design a dual architecture consisting of two
branches, one of which is a copy of DQN, namely the Q-branch. The other branch,
which we call the preference branch, learns the action preference that the DQN
implicit follows. We theoretically prove that the policy improvement theorem
holds for the preference-guided $\epsilon$-greedy policy and experimentally
show that the inferred action preference distribution aligns with the landscape
of corresponding Q-values. Consequently, preference-guided $\epsilon$-greedy
exploration motivates the DQN agent to take diverse actions, i.e., actions with
larger Q-values can be sampled more frequently whereas actions with smaller
Q-values still have a chance to be explored, thus encouraging the exploration.
We assess the proposed method with four well-known DQN variants in nine
different environments. Extensive results confirm the superiority of our
proposed method in terms of performance and convergence speed.
Index Terms- Preference-guided exploration, stochastic policy, data
efficiency, deep reinforcement learning, deep Q-learning.
- Abstract(参考訳): ディープQネットワーク(DQN)アルゴリズムによる大規模実用的な研究は、その単純さにもかかわらず、確率的ポリシーが最も頻繁に用いられる探索手法であることを示している。
しかし、既存の確率的探索手法のほとんどは、Q値に関わらずヒューリスティックに新しい行動を探索するか、学習プロセスに必然的にバイアスを導入してQ値と組み合わせるかのいずれかである。
本稿では,dqnに対するq値のランドスケープに沿った行動分布を,バイアスを伴わずに効率的に学習できる,新たな選好ガイド付き$\epsilon$-greedy探索アルゴリズムを提案する。
具体的には、2つの分岐からなる二重アーキテクチャを設計し、そのうちの1つはDQNのコピー、すなわちQブランチを設計する。
もう一方のブランチは、好みブランチと呼ばれ、DQNが暗黙的に従うアクションの好みを学習します。
理論的には、政策改善定理が優先誘導の$\epsilon$-greedyポリシーに対して成り立つことを証明し、推論された行動選好分布が対応するQ値の風景と一致することを実験的に示す。
その結果、選好誘導の$\epsilon$-greedy 探索は DQN エージェントが様々な行動をとる動機となる。
提案手法は,9つの異なる環境でよく知られた4つのDQN変種を用いて評価する。
性能と収束速度の観点から,提案手法が優れていることを確認した。
指標項- 優先誘導探索、確率的ポリシー、データ効率、深層強化学習、深層Q-ラーニング。
関連論文リスト
- Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。
このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文 参考訳(メタデータ) (2024-06-12T03:30:10Z) - Q-Probe: A Lightweight Approach to Reward Maximization for Language Models [16.801981347658625]
本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。
高いレベルでは、Q-probingは、微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの間に位置する。
論文 参考訳(メタデータ) (2024-02-22T16:43:16Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Careful at Estimation and Bold at Exploration [21.518406902400432]
政策に基づく探索は、決定論的政策強化学習における継続的な行動空間にとって有益である。
しかし、政策に基づく探索には、目的のない探索と政策の分岐という2つの大きな問題がある。
政策勾配とは別に,これらの問題を緩和するための新たな探索戦略を導入する。
論文 参考訳(メタデータ) (2023-08-22T10:52:46Z) - Quantile Filtered Imitation Learning [49.11859771578969]
量子フィルタ模倣学習(QFIL)は、オフライン強化学習用に設計されたポリシー改善演算子である。
我々はQFILが機能近似による安全なポリシー改善のステップを提供することを証明した。
QFILはD4RLベンチマークでよく機能します。
論文 参考訳(メタデータ) (2021-12-02T03:08:23Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。