Fugu-MT 論文翻訳(概要): Continuous Mean-Covariance Bandits

論文の概要: Continuous Mean-Covariance Bandits

arxiv url: http://arxiv.org/abs/2102.12090v5
Date: Thu, 11 May 2023 06:36:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-12 19:25:04.097873
Title: Continuous Mean-Covariance Bandits
Title（参考訳）: 連続平均共分散帯域
Authors: Yihan Du, Siwei Wang, Zhixuan Fang, Longbo Huang
Abstract要約: 本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。 CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
参考スコア（独自算出の注目度）: 39.820490484375156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing risk-aware multi-armed bandit models typically focus on risk measures of individual options such as variance. As a result, they cannot be directly applied to important real-world online decision making problems with correlated options. In this paper, we propose a novel Continuous Mean-Covariance Bandit (CMCB) model to explicitly take into account option correlation. Specifically, in CMCB, there is a learner who sequentially chooses weight vectors on given options and observes random feedback according to the decisions. The agent's objective is to achieve the best trade-off between reward and risk, measured with option covariance. To capture different reward observation scenarios in practice, we consider three feedback settings, i.e., full-information, semi-bandit and full-bandit feedback. We propose novel algorithms with optimal regrets (within logarithmic factors), and provide matching lower bounds to validate their optimalities. The experimental results also demonstrate the superiority of our algorithms. To the best of our knowledge, this is the first work that considers option correlation in risk-aware bandits and explicitly quantifies how arbitrary covariance structures impact the learning performance. The novel analytical techniques we developed for exploiting the estimated covariance to build concentration and bounding the risk of selected actions based on sampling strategy properties can likely find applications in other bandit analysis and be of independent interests.
Abstract（参考訳）: 既存のリスクアウェアマルチアームバンディットモデルは、一般的に分散などの個別オプションのリスク対策に焦点を当てている。その結果、関連する選択肢を持つ重要なオンライン意思決定問題に直接適用することはできない。本稿では,オプション相関を考慮した新しい連続平均共分散バンドイット(cmcb)モデルを提案する。具体的には、CMCBにおいて、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。エージェントの目的は、オプションの共分散によって測定される報酬とリスクの間の最良のトレードオフを達成することである。実例で異なる報奨観察シナリオを捉えるため,全情報,半帯域,全帯域の3つのフィードバック設定を検討する。対数的因子を伴わない)最適後悔を伴う新しいアルゴリズムを提案し、その最適性を検証するために一致した下界を提供する。実験結果は,アルゴリズムの優位性も示している。我々の知る限りでは、リスク対応の帯域におけるオプション相関を考慮し、任意の共分散構造が学習性能に与える影響を明確に評価する最初の研究である。推定共分散を利用して, 抽出戦略特性に基づく選択された行動のリスクを限定することで, 他のバンディット分析に応用でき, 独立した興味を持つ可能性がある。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文参考訳（メタデータ） (2024-11-21T17:46:55Z)
Contextual Linear Optimization with Bandit Feedback [35.692428244561626]
文脈線形最適化(CLO)は、ランダムコスト係数の不確実性を低減するために予測的文脈特徴を用いる。我々は,帯域幅フィードバックを用いたCLOのためのオフライン学習アルゴリズムのクラスについて検討する。 IERMに対する高速な後悔境界を示し、不特定モデルクラスと最適化推定の柔軟な選択を可能にする。
論文参考訳（メタデータ） (2024-05-26T13:27:27Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Pitfall of Optimism: Distributional Reinforcement Learning by Randomizing Risk Criterion [9.35556128467037]
本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
論文参考訳（メタデータ） (2023-10-25T10:53:04Z)
Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文参考訳（メタデータ） (2023-07-26T12:06:13Z)
Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文参考訳（メタデータ） (2023-03-29T22:06:24Z)
Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-15T08:32:53Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。