論文の概要: Thompson Sampling for Gaussian Entropic Risk Bandits
- arxiv url: http://arxiv.org/abs/2105.06960v1
- Date: Fri, 14 May 2021 17:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 14:50:01.582602
- Title: Thompson Sampling for Gaussian Entropic Risk Bandits
- Title(参考訳): ガウス型エントロピー・リスク・バンディットのトンプソンサンプリング
- Authors: Ming Liang Ang, Eloise Y. Y. Lim, Joel Q. L. Chang
- Abstract要約: リスクは、その普遍的に合意された定義がないため、基本的な報酬の最大化目標を複雑にします。
我々は,このリスク尺度の下でのトンプソンサンプリングに基づくアルゴリズムの性能を,エントロピーリスク尺度 (er) で検討し,検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-armed bandit (MAB) problem is a ubiquitous decision-making problem
that exemplifies exploration-exploitation tradeoff. Standard formulations
exclude risk in decision making. Risknotably complicates the basic
reward-maximising objectives, in part because there is no universally agreed
definition of it. In this paper, we consider an entropic risk (ER) measure and
explore the performance of a Thompson sampling-based algorithm ERTS under this
risk measure by providing regret bounds for ERTS and corresponding instance
dependent lower bounds.
- Abstract(参考訳): マルチアームバンディット(英: multi-armed bandit、MAB)は、探検と探査のトレードオフを示すユビキタスな意思決定問題である。
標準定式化は意思決定のリスクを除外する。
リスクを意識して、報酬を最大化する基本的な目的を複雑にする。
本稿では,このリスク尺度の下でのトンプソンサンプリングに基づくアルゴリズムの性能を,ertとそれに対応するインスタンス依存下限に対する後悔の限界を提供することにより,エントロピーリスク(er)の測定と検討する。
関連論文リスト
- Planning and Learning in Risk-Aware Restless Multi-Arm Bandit Problem [4.178382980763478]
レスレス・マルチアーム・バンディットでは、中央エージェントは複数のバンドイット(アーム)に限られたリソースを最適に分散させる。
本研究では,リスク・アウェアネスを組み込むことにより,従来のレスレスト・マルチアーム・バンディット問題をリスクニュートラル目標に一般化する。
我々は、リスク認識対象の指標可能性条件を確立し、Whittleインデックスに基づくソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-30T13:59:30Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。