論文の概要: Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs
- arxiv url: http://arxiv.org/abs/2206.12463v1
- Date: Fri, 24 Jun 2022 18:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:24:32.850199
- Title: Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs
- Title(参考訳): 線形ペイオフを考慮したリスク-逆コンテキスト多重武器帯域問題
- Authors: Yifan Lin, Yuhao Wang, Enlu Zhou
- Abstract要約: リスク・逆条件下での線形ペイオフに対するコンテキスト多重武装バンディット問題について考察する。
各ラウンドにおいて、各アームのコンテキストが明らかにされ、意思決定者は1つのアームを選択して、対応する報酬を受け取ります。
解離モデルに対してトンプソンサンプリングアルゴリズムを適用し,提案アルゴリズムの変種に対する包括的後悔解析を行う。
- 参考スコア(独自算出の注目度): 7.125769932993104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we consider the contextual multi-armed bandit problem for
linear payoffs under a risk-averse criterion. At each round, contexts are
revealed for each arm, and the decision maker chooses one arm to pull and
receives the corresponding reward. In particular, we consider mean-variance as
the risk criterion, and the best arm is the one with the largest mean-variance
reward. We apply the Thompson Sampling algorithm for the disjoint model, and
provide a comprehensive regret analysis for a variant of the proposed
algorithm. For $T$ rounds, $K$ actions, and $d$-dimensional feature vectors, we
prove a regret bound of $O((1+\rho+\frac{1}{\rho}) d\ln T \ln
\frac{K}{\delta}\sqrt{d K T^{1+2\epsilon} \ln \frac{K}{\delta}
\frac{1}{\epsilon}})$ that holds with probability $1-\delta$ under the
mean-variance criterion with risk tolerance $\rho$, for any
$0<\epsilon<\frac{1}{2}$, $0<\delta<1$. The empirical performance of our
proposed algorithms is demonstrated via a portfolio selection problem.
- Abstract(参考訳): 本稿では,リスク回避基準の下でのリニアペイオフの文脈的多腕バンディット問題を考える。
各ラウンドで各アームのコンテキストが明らかにされ、意思決定者は1つのアームを選択して対応する報酬を受け取る。
特に,平均分散をリスク基準とし,平均分散報酬が最も大きいのが最善のアームである。
本手法は,非結合モデルにトンプソンサンプリングアルゴリズムを適用し,提案手法の変種に対する包括的後悔解析を提供する。
0<\epsilon<\frac{1}{2}$,$0<\epsilon<\frac{1}{2}$,$0<\delta<1}{2}$,$0<\epsilon<\delta<1$}} に対して、$t$ round, $k$ action, $d$-dimensional feature vectorに対して、$o((1+\rho+\frac{1}{\rho}) d\ln t \ln \frac{k}{\delta}\sqrt{d k t^{1+2\epsilon} \ln \frac{k}{\delta} \frac{1}{\epsilon}})$という、平均分散基準の下で1-\delta$で保たれ、リスク耐性のある$0<\epsilon<\frac{1}{2}$,$0<\delta<1$である。
提案アルゴリズムの実証性能は,ポートフォリオ選択問題によって実証される。
関連論文リスト
- Best-of-Both-Worlds Linear Contextual Bandits [45.378265414553226]
本研究は, 対向汚職下での多武装盗賊問題の事例である$K$腕線形文脈盗賊の問題を考察する。
我々は,理論的保証のもと,双方の敵環境に有効な戦略を開発する。
両体制の理論的保証から,我々の戦略をBest-of-Both-Worlds (BoBW) RealFTRLと呼んでいる。
論文 参考訳(メタデータ) (2023-12-27T09:32:18Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - Double Doubly Robust Thompson Sampling for Generalized Linear Contextual
Bandits [8.508198765617198]
一般化線形報酬に$tildeO(sqrtkappa-1 phi T)$ regret over $T$ roundsを提案する。
また、確率的マージン条件下では、$O(kappa-1 phi log (NT) log T)$ regret bound for $N$ arms も提供する。
論文 参考訳(メタデータ) (2022-09-15T00:20:38Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。