論文の概要: Continuous Mean-Covariance Bandits
- arxiv url: http://arxiv.org/abs/2102.12090v1
- Date: Wed, 24 Feb 2021 06:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 14:42:24.546268
- Title: Continuous Mean-Covariance Bandits
- Title(参考訳): 連続平均共分散帯域
- Authors: Yihan Du, Siwei Wang, Zhixuan Fang, Longbo Huang
- Abstract要約: 本稿では,オプション相関を考慮した連続平均共分散バンディットモデルを提案する。
CMCBでは、特定のオプションで重みベクトルを順次選択し、決定に応じてランダムなフィードバックを観察する学習者がいます。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、その最適性を検証するために一致した下界を提供する。
- 参考スコア(独自算出の注目度): 32.87786592621793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing risk-aware multi-armed bandit models typically focus on risk
measures of individual options such as variance. As a result, they cannot be
directly applied to important real-world online decision making problems with
correlated options. In this paper, we propose a novel Continuous
Mean-Covariance Bandit (CMCB) model to explicitly take into account option
correlation. Specifically, in CMCB, there is a learner who sequentially chooses
weight vectors on given options and observes random feedback according to the
decisions. The agent's objective is to achieve the best trade-off between
reward and risk, measured with option covariance. To capture important reward
observation scenarios in practice, we consider three feedback settings, i.e.,
full-information, semi-bandit and full-bandit feedback. We propose novel
algorithms with the optimal regrets (within logarithmic factors), and provide
matching lower bounds to validate their optimalities. Our experimental results
also demonstrate the superiority of the proposed algorithms. To the best of our
knowledge, this is the first work that considers option correlation in
risk-aware bandits and explicitly quantifies how arbitrary covariance
structures impact the learning performance.
- Abstract(参考訳): 既存のリスクアウェアマルチアームバンディットモデルは、一般的に分散などの個別オプションのリスク対策に焦点を当てている。
その結果、関連する選択肢を持つ重要なオンライン意思決定問題に直接適用することはできない。
本稿では,オプション相関を考慮した新しい連続平均共分散バンドイット(cmcb)モデルを提案する。
具体的には、CMCBでは、特定のオプションで重みベクトルを順次選択し、決定に応じてランダムなフィードバックを観察する学習者がいます。
エージェントの目的は、オプションの共分散で測定された報酬とリスクの間の最良のトレードオフを達成することです。
実際に重要な報奨観測シナリオを捉えるために,3つのフィードバック設定,すなわち,全情報,半帯域,全帯域フィードバックを検討する。
対数的因子を伴わない)最適後悔を伴う新しいアルゴリズムを提案し、その最適性を検証するために一致した下界を提供する。
また,提案手法の有効性を実証する実験を行った。
我々の知る限りでは、リスク対応の帯域におけるオプション相関を考慮し、任意の共分散構造が学習性能に与える影響を明確に評価する最初の研究である。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Contextual Linear Optimization with Bandit Feedback [35.692428244561626]
文脈線形最適化(CLO)は、ランダムコスト係数の不確実性を低減するために予測的文脈特徴を用いる。
我々は,帯域幅フィードバックを用いたCLOのためのオフライン学習アルゴリズムのクラスについて検討する。
IERMに対する高速な後悔境界を示し、不特定モデルクラスと最適化推定の柔軟な選択を可能にする。
論文 参考訳(メタデータ) (2024-05-26T13:27:27Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Pitfall of Optimism: Distributional Reinforcement Learning by
Randomizing Risk Criterion [9.35556128467037]
本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。
理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
論文 参考訳(メタデータ) (2023-10-25T10:53:04Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。