論文の概要: Neural Contextual Bandits via Reward-Biased Maximum Likelihood
Estimation
- arxiv url: http://arxiv.org/abs/2203.04192v1
- Date: Tue, 8 Mar 2022 16:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:27:39.887636
- Title: Neural Contextual Bandits via Reward-Biased Maximum Likelihood
Estimation
- Title(参考訳): Reward-Biased Maximum Likelihood Estimationによる神経コンテキスト帯域の推定
- Authors: Yu-Heng Hung, Ping-Chun Hsieh
- Abstract要約: Reward-biased maximum max estimation (RBMLE) は、探索・探索トレードオフに対処するための適応制御文学における古典的な原理である。
本稿では,一般有界報酬関数を用いた文脈的バンディット問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。
両アルゴリズムは、非線形報酬関数を持つ実世界のデータセットにおける最先端の手法と比較して、同等またはより良い経験的後悔を実現する。
- 参考スコア(独自算出の注目度): 9.69596041242667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward-biased maximum likelihood estimation (RBMLE) is a classic principle in
the adaptive control literature for tackling explore-exploit trade-offs. This
paper studies the stochastic contextual bandit problem with general bounded
reward functions and proposes NeuralRBMLE, which adapts the RBMLE principle by
adding a bias term to the log-likelihood to enforce exploration. NeuralRBMLE
leverages the representation power of neural networks and directly encodes
exploratory behavior in the parameter space, without constructing confidence
intervals of the estimated rewards. We propose two variants of NeuralRBMLE
algorithms: The first variant directly obtains the RBMLE estimator by gradient
ascent, and the second variant simplifies RBMLE to a simple index policy
through an approximation. We show that both algorithms achieve
$\widetilde{\mathcal{O}}(\sqrt{T})$ regret. Through extensive experiments, we
demonstrate that the NeuralRBMLE algorithms achieve comparable or better
empirical regrets than the state-of-the-art methods on real-world datasets with
non-linear reward functions.
- Abstract(参考訳): rbmle(reward-biased maximum likelihood estimation)は、探索-爆発的トレードオフに取り組む適応制御文学における古典的な原理である。
本稿では,一般有界報酬関数を用いた確率的文脈的帯域幅問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。
neuralrbmleはニューラルネットワークの表現力を活用し、推定報酬の信頼区間を構築することなく、パラメータ空間での探索行動を直接エンコードする。
本稿では,2種類のNeuralRBMLEアルゴリズムを提案する。第1の変種は勾配上昇によるRBMLE推定器を直接取得し,第2の変種は近似による単純な指標ポリシへのRBMLEの単純化を行う。
両アルゴリズムが $\widetilde{\mathcal{O}}(\sqrt{T})$ regret を達成することを示す。
広範な実験を通じて,neuralrbmleアルゴリズムは,非線形報酬関数を持つ実世界のデータセットにおける最先端の手法よりも,同等あるいは優れた経験的後悔を達成できることを実証した。
関連論文リスト
- Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Tractable and Near-Optimal Adversarial Algorithms for Robust Estimation
in Contaminated Gaussian Models [1.609950046042424]
ハマーの汚染されたガウスモデルの下での位置と分散行列の同時推定の問題を考える。
まず,非パラメトリック判別器を用いた生成逆数法に対応する最小$f$-divergence推定法について検討した。
ネスト最適化により実装可能な,単純なスプライン判別器を用いたトラクタブル逆数アルゴリズムを開発した。
提案手法は,$f$-divergenceと使用したペナルティに応じて,最小値の最適値またはほぼ最適値を達成する。
論文 参考訳(メタデータ) (2021-12-24T02:46:51Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - A unified view of likelihood ratio and reparameterization gradients [91.4645013545015]
我々は、LRとRPが確率質量の運動を追跡する代替方法であることを示すために、第一原理のアプローチを用いる。
LRとRPを組み合わせた全ての可能な推定器の空間は、流れ場によって完全にパラメータ化可能であることを示す。
したがって、より優れたモンテカルロ勾配推定器をどこに探すべきかを明確にする。
論文 参考訳(メタデータ) (2021-05-31T11:53:08Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。