論文の概要: Continuous Mean-Covariance Bandits
- arxiv url: http://arxiv.org/abs/2102.12090v5
- Date: Thu, 11 May 2023 06:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 19:25:04.097873
- Title: Continuous Mean-Covariance Bandits
- Title(参考訳): 連続平均共分散帯域
- Authors: Yihan Du, Siwei Wang, Zhixuan Fang, Longbo Huang
- Abstract要約: 本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
- 参考スコア(独自算出の注目度): 39.820490484375156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing risk-aware multi-armed bandit models typically focus on risk
measures of individual options such as variance. As a result, they cannot be
directly applied to important real-world online decision making problems with
correlated options. In this paper, we propose a novel Continuous
Mean-Covariance Bandit (CMCB) model to explicitly take into account option
correlation. Specifically, in CMCB, there is a learner who sequentially chooses
weight vectors on given options and observes random feedback according to the
decisions. The agent's objective is to achieve the best trade-off between
reward and risk, measured with option covariance. To capture different reward
observation scenarios in practice, we consider three feedback settings, i.e.,
full-information, semi-bandit and full-bandit feedback. We propose novel
algorithms with optimal regrets (within logarithmic factors), and provide
matching lower bounds to validate their optimalities. The experimental results
also demonstrate the superiority of our algorithms. To the best of our
knowledge, this is the first work that considers option correlation in
risk-aware bandits and explicitly quantifies how arbitrary covariance
structures impact the learning performance. The novel analytical techniques we
developed for exploiting the estimated covariance to build concentration and
bounding the risk of selected actions based on sampling strategy properties can
likely find applications in other bandit analysis and be of independent
interests.
- Abstract(参考訳): 既存のリスクアウェアマルチアームバンディットモデルは、一般的に分散などの個別オプションのリスク対策に焦点を当てている。
その結果、関連する選択肢を持つ重要なオンライン意思決定問題に直接適用することはできない。
本稿では,オプション相関を考慮した新しい連続平均共分散バンドイット(cmcb)モデルを提案する。
具体的には、CMCBにおいて、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
エージェントの目的は、オプションの共分散によって測定される報酬とリスクの間の最良のトレードオフを達成することである。
実例で異なる報奨観察シナリオを捉えるため,全情報,半帯域,全帯域の3つのフィードバック設定を検討する。
対数的因子を伴わない)最適後悔を伴う新しいアルゴリズムを提案し、その最適性を検証するために一致した下界を提供する。
実験結果は,アルゴリズムの優位性も示している。
我々の知る限りでは、リスク対応の帯域におけるオプション相関を考慮し、任意の共分散構造が学習性能に与える影響を明確に評価する最初の研究である。
推定共分散を利用して, 抽出戦略特性に基づく選択された行動のリスクを限定することで, 他のバンディット分析に応用でき, 独立した興味を持つ可能性がある。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Pitfall of Optimism: Distributional Reinforcement Learning by
Randomizing Risk Criterion [9.35556128467037]
本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。
理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
論文 参考訳(メタデータ) (2023-10-25T10:53:04Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。