論文の概要: Pure Exploration Bandit Problem with General Reward Functions Depending
on Full Distributions
- arxiv url: http://arxiv.org/abs/2105.03598v1
- Date: Sat, 8 May 2021 05:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 11:06:56.668960
- Title: Pure Exploration Bandit Problem with General Reward Functions Depending
on Full Distributions
- Title(参考訳): 全分布に依存する一般報酬関数を用いた純粋探査バンドイット問題
- Authors: Siwei Wang, Wei Chen
- Abstract要約: 一般分布関数に基づく純粋な探索帯域モデルについて検討し,各アームの報酬関数は平均だけでなく分布全体に依存することを示す。
この問題を解決するためにレーシングフレームワークとLUCBフレームワークを適応させ、異なる種類の分布を持つ報酬関数の価値を推定するためのアルゴリズムを設計します。
- 参考スコア(独自算出の注目度): 20.40531651708692
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we study the pure exploration bandit model on general
distribution functions, which means that the reward function of each arm
depends on the whole distribution, not only its mean. We adapt the racing
framework and LUCB framework to solve this problem, and design algorithms for
estimating the value of the reward functions with different types of
distributions. Then we show that our estimation methods have correctness
guarantee with proper parameters, and obtain sample complexity upper bounds for
them. Finally, we discuss about some important applications and their
corresponding solutions under our learning framework.
- Abstract(参考訳): 本稿では,一般分布関数の純粋探索バンディットモデルについて検討する。つまり,各アームの報酬関数は,その平均値だけでなく,分布全体に依存する。
この問題を解決するために、レースフレームワークとLUCBフレームワークを適用し、異なる種類の分布で報酬関数の価値を推定するアルゴリズムを設計する。
そして,提案手法が適切なパラメータで正確性を保証することを示し,それらのサンプル複雑性上限を求める。
最後に,学習フレームワーク下で重要なアプリケーションとその対応ソリューションについて論じる。
関連論文リスト
- Bandit Pareto Set Identification: the Fixed Budget Setting [12.326452468513228]
マルチアームバンディットモデルにおける純粋探索問題について検討する。
目的は、平均値が他の分布よりも均一に悪くない分布を特定することである。
論文 参考訳(メタデータ) (2023-11-07T13:43:18Z) - Dr. FERMI: A Stochastic Distributionally Robust Fair Empirical Risk
Minimization Framework [12.734559823650887]
分散シフトが存在する場合、公正な機械学習モデルはテストデータに対して不公平に振る舞うことがある。
既存のアルゴリズムはデータへの完全なアクセスを必要とし、小さなバッチを使用する場合には使用できない。
本稿では,因果グラフの知識を必要としない収束保証付き分布安定度フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-20T23:25:28Z) - Domain Generalization by Functional Regression [3.209698860006188]
本稿では,機能回帰問題としての領域一般化について考察する。
我々の概念は、入力の辺分布から入力の対応する条件分布への線形演算子を学習するための新しいアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2023-02-09T16:07:21Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Wrapped Distributions on homogeneous Riemannian manifolds [58.720142291102135]
パラメータ、対称性、モダリティなどの分布の性質の制御は、フレキシブルな分布の族を生み出す。
変動型オートエンコーダと潜在空間ネットワークモデル内で提案した分布を利用して,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2022-04-20T21:25:21Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。
我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文 参考訳(メタデータ) (2021-02-19T18:36:03Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。