論文の概要: Reward-Biased Maximum Likelihood Estimation for Linear Stochastic
Bandits
- arxiv url: http://arxiv.org/abs/2010.04091v1
- Date: Thu, 8 Oct 2020 16:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:31:09.408146
- Title: Reward-Biased Maximum Likelihood Estimation for Linear Stochastic
Bandits
- Title(参考訳): 線形確率バンディットに対する報奨バイアス最大確率推定
- Authors: Yu-Heng Hung, Ping-Chun Hsieh, Xi Liu and P. R. Kumar
- Abstract要約: 我々は,注文最適性を証明できる新しい指標ポリシーを開発し,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。
新しいポリシーは、線形バンディットに対して1プル当たりの少ない時間でこれを達成し、結果として、好意的な後悔と計算効率の両方をもたらす。
- 参考スコア(独自算出の注目度): 16.042075861624056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modifying the reward-biased maximum likelihood method originally proposed in
the adaptive control literature, we propose novel learning algorithms to handle
the explore-exploit trade-off in linear bandits problems as well as generalized
linear bandits problems. We develop novel index policies that we prove achieve
order-optimality, and show that they achieve empirical performance competitive
with the state-of-the-art benchmark methods in extensive experiments. The new
policies achieve this with low computation time per pull for linear bandits,
and thereby resulting in both favorable regret as well as computational
efficiency.
- Abstract(参考訳): 適応制御文献で最初に提案された報奨バイアス最大値法を改良し,線形バンディット問題と一般化線形バンディット問題における探索・探索トレードオフを扱う新しい学習アルゴリズムを提案する。
我々は,注文最適性を証明できる新しい指標ポリシーを開発し,その実験により,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。
新しいポリシーでは、リニアバンディットのプルあたりの計算時間が短くなり、結果として、好ましい後悔と計算効率の両方が達成される。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Convex Methods for Constrained Linear Bandits [2.5782420501870296]
この研究は、安全な帯域幅アルゴリズム、特に安全な線形帯域幅の計算的側面に関する包括的な研究を示す。
まず,安全線形バンディット問題に対する最適ポリシーの特性を特徴付けるとともに,安全線形バンディットアルゴリズムのエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-07T20:45:46Z) - Directional Optimism for Safe Linear Bandits [4.84955052297084]
安全線形バンドイット問題は、学習者の行動が全てのラウンドにおいて不確実な制約を満たす必要がある古典線形バンドイット問題のバージョンである。
我々は、よく分離された問題インスタンスと有限の星凸集合であるアクションセットの両方に対して、改善された後悔の保証を達成することができることを発見した。
最後に、制約が凸である安全な線形帯域設定の一般化を導入し、新しい凸解析に基づくアプローチを用いてアルゴリズムと解析をこの設定に適応させる。
論文 参考訳(メタデータ) (2023-08-29T03:54:53Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。