論文の概要: Optimistic Exploration even with a Pessimistic Initialisation
- arxiv url: http://arxiv.org/abs/2002.12174v1
- Date: Wed, 26 Feb 2020 17:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 13:49:06.890771
- Title: Optimistic Exploration even with a Pessimistic Initialisation
- Title(参考訳): 悲観的初期化をもった最適探索
- Authors: Tabish Rashid, Bei Peng, Wendelin B\"ohmer, Shimon Whiteson
- Abstract要約: 最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である
特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。
本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
- 参考スコア(独自算出の注目度): 57.41327865257504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimistic initialisation is an effective strategy for efficient exploration
in reinforcement learning (RL). In the tabular case, all provably efficient
model-free algorithms rely on it. However, model-free deep RL algorithms do not
use optimistic initialisation despite taking inspiration from these provably
efficient tabular algorithms. In particular, in scenarios with only positive
rewards, Q-values are initialised at their lowest possible values due to
commonly used network initialisation schemes, a pessimistic initialisation.
Merely initialising the network to output optimistic Q-values is not enough,
since we cannot ensure that they remain optimistic for novel state-action
pairs, which is crucial for exploration. We propose a simple count-based
augmentation to pessimistically initialised Q-values that separates the source
of optimism from the neural network. We show that this scheme is provably
efficient in the tabular setting and extend it to the deep RL setting. Our
algorithm, Optimistic Pessimistically Initialised Q-Learning (OPIQ), augments
the Q-value estimates of a DQN-based agent with count-derived bonuses to ensure
optimism during both action selection and bootstrapping. We show that OPIQ
outperforms non-optimistic DQN variants that utilise a pseudocount-based
intrinsic motivation in hard exploration tasks, and that it predicts optimistic
estimates for novel state-action pairs.
- Abstract(参考訳): 楽観的初期化は強化学習(rl)の効率的な探索に有効な戦略である。
表のケースでは、すべての有効なモデルフリーアルゴリズムがそれに依存している。
しかし、モデルのないディープRLアルゴリズムは、これらの証明可能な効率的な表形式アルゴリズムから着想を得ても楽観的な初期化を使わない。
特に、正の報酬しか持たないシナリオでは、一般に使用されるネットワーク初期化スキーム(悲観的初期化)により、Q値が可能な限り低い値で初期化される。
ネットワークの初期化によって楽観的なQ値が出力されるだけでは十分ではない。
本稿では,最適化の源をニューラルネットワークから分離する悲観的初期化q値に対する単純なカウントベース拡張を提案する。
本稿では,このスキームが表裏設定において有効であることを示し,それを深いrl設定に拡張する。
我々のアルゴリズムであるOptimistic Pessimistically Initialized Q-Learning (OPIQ) は、DQNベースのエージェントのQ値推定をカウント派生ボーナスで増加させ、アクション選択とブートストラップの両方における最適化を保証する。
OPIQは, 探索作業における擬似対数に基づく本質的な動機を生かした非最適DQN変種よりも優れており, 新規な状態-作用対に対する楽観的な推定を予測できることを示す。
関連論文リスト
- Merit-Based Sortition in Decentralized Systems [0.0]
我々は'メリットベースソート'のための簡単なアルゴリズムを提案する。
本稿では,本アルゴリズムにより,活性集合の性能を本質性の2倍に向上することを示す。
これは、メリットベースのソートによって、ドラフトされた'アクティブ'セットに対する統計的に重要なパフォーマンス向上が保証されることを意味する。
論文 参考訳(メタデータ) (2024-11-11T19:00:31Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Pseudo-Likelihood Inference [16.934708242852558]
Pseudo-Likelihood Inference (PLI)は、ABCに神経近似をもたらす新しい方法であり、ベイズシステムの識別に挑戦するタスクと競合する。
PLIは、勾配降下による神経後葉の最適化を可能にし、要約統計に頼らず、入力として複数の観察を可能にする。
PLIの有効性は、4つの古典的SBIベンチマークタスクと非常にダイナミックな物理システムで評価される。
論文 参考訳(メタデータ) (2023-11-28T10:17:52Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Training-Free Neural Active Learning with Initialization-Robustness
Guarantees [27.38525683635627]
本稿では,ニューラルアクティブ学習におけるガウス過程 (EV-GP) の基準値との相違点について紹介する。
我々のEV-GP基準は、トレーニング不要、すなわち、データ選択中にNNのトレーニングを一切必要としない。
論文 参考訳(メタデータ) (2023-06-07T14:28:42Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - From Understanding Genetic Drift to a Smart-Restart Mechanism for
Estimation-of-Distribution Algorithms [16.904475483445452]
我々は,分布推定アルゴリズム(EDAs)のためのスマートリスタート機構を開発する。
遺伝的ドリフトのリスクが高い場合、実行を停止することで、適切なパラメーター条件下でEDAを自動的に実行します。
スマートリスタート機構は,文献で示唆されるものよりも,集団サイズに対してはるかに優れた値を見出すことを示す。
論文 参考訳(メタデータ) (2022-06-18T02:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。