論文の概要: Regularized OFU: an Efficient UCB Estimator forNon-linear Contextual
Bandit
- arxiv url: http://arxiv.org/abs/2106.15128v1
- Date: Tue, 29 Jun 2021 07:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:44:17.574330
- Title: Regularized OFU: an Efficient UCB Estimator forNon-linear Contextual
Bandit
- Title(参考訳): 正規化OFU:非線形帯域の効率的なUPB推定器
- Authors: Yichi Zhou, Shihong Song, Huishuai Zhang, Jun Zhu, Wei Chen, Tie-Yan
Liu
- Abstract要約: 両立探索と搾取(EE)は、同性間の盗賊の根本的問題である。
ROFU(ROFU)という新しいOFUアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 90.0208037317206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing exploration and exploitation (EE) is a fundamental problem in
contex-tual bandit. One powerful principle for EE trade-off isOptimism in Face
of Uncer-tainty(OFU), in which the agent takes the action according to an upper
confidencebound (UCB) of reward. OFU has achieved (near-)optimal regret bound
for lin-ear/kernel contextual bandits. However, it is in general unknown how to
deriveefficient and effective EE trade-off methods for non-linearcomplex tasks,
suchas contextual bandit with deep neural network as the reward function. In
thispaper, we propose a novel OFU algorithm namedregularized OFU(ROFU). InROFU,
we measure the uncertainty of the reward by a differentiable function
andcompute the upper confidence bound by solving a regularized optimization
prob-lem. We prove that, for multi-armed bandit, kernel contextual bandit and
neuraltangent kernel bandit, ROFU achieves (near-)optimal regret bounds with
certainuncertainty measure, which theoretically justifies its effectiveness on
EE trade-off.Importantly, ROFU admits a very efficient implementation with
gradient-basedoptimizer, which easily extends to general deep neural network
models beyondneural tangent kernel, in sharp contrast with previous OFU
methods. The em-pirical evaluation demonstrates that ROFU works extremelywell
for contextualbandits under various settings.
- Abstract(参考訳): 両立探索と搾取(EE)は、同性間の盗賊の根本的問題である。
EEトレードオフの強力な原則の1つは、エージェントが報酬の上限(UCB)に従って行動を起こす、不確実性(OFU)に対する最適主義(Optimism in Face of Uncer-tainty)である。
OFUは、lin-ear/kernelコンテキストの盗賊に対する(ほぼ)最適後悔を達成している。
しかしながら、ニューラルネットワークを報酬関数とするコンテキストバンディットのような非線形複合タスクに対して、効率良く効果的なeeトレードオフ法を導出する方法は一般には分かっていない。
本稿では,ROFU(ROFU)と呼ばれる新しいOFUアルゴリズムを提案する。
InROFU, we measure the uncertainty of the reward by a differentiable function andcompute the upper confidence bound by solve a regularized optimization prob-lem。
ROFUは、マルチアーム帯域幅、カーネルコンテキスト帯域幅およびニューラルタングルトカーネル帯域幅において、理論的にはEEトレードオフにおける有効性を正当化する一定の不確実性尺度との(ほぼ)最適後悔境界を達成できることを証明した。
経験的評価は、ROFUが様々な環境下での文脈的帯域に対して極めてうまく機能することを示した。
関連論文リスト
- Stochastic Bandits with ReLU Neural Networks [40.41457480347015]
我々は,1層ReLUニューラルネットワークの帯域を考慮すれば,$tildeO(sqrtT)の後悔保証が達成可能であることを示す。
この上限を達成できるOFU-ReLUアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-12T16:54:57Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - On High-dimensional and Low-rank Tensor Bandits [53.0829344775769]
この研究は一般的なテンソルバンドイットモデルについて研究し、アクションとシステムパラメータはベクトルとは対照的にテンソルで表される。
TOFU(Tensor Optimism in the Face of Uncertainity)と呼ばれる新しいバンディットアルゴリズムを開発した。
理論的解析により、TOFUは系の順序で指数関数的に増加する乗法的因子により、最もよく知られた後悔の上界を改善することが示されている。
論文 参考訳(メタデータ) (2023-05-06T00:43:36Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of
Information Selection [0.0]
CMAB(Contextual Multi-armed bandits)は、ユーザの関心に応じて情報のフィルタリングと優先順位付けを学習するために広く使用されている。
本研究は,トップKアームを反復的に選択して報酬を最大化するCMABフレームワークに基づくトップKランキングの分析である。
本稿では,Deep Up Confidence Bound (UCB)アルゴリズムという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-08T13:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。