論文の概要: Sequential Estimation under Multiple Resources: a Bandit Point of View
- arxiv url: http://arxiv.org/abs/2109.14703v1
- Date: Wed, 29 Sep 2021 20:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:56:13.912431
- Title: Sequential Estimation under Multiple Resources: a Bandit Point of View
- Title(参考訳): 複数資源による逐次推定--バンドイットの観点から
- Authors: Alireza Masoumian, Shayan Kiyani, Mohammad Hossein Yassaee
- Abstract要約: SEMRは統計的推定とバンド理論の交叉と見なすことができる。
最終推定器の品質は平均二乗誤差によって評価される。
分布がガウス的でない場合であっても、設定の基本極限を決定するために下界を提案する。
- 参考スコア(独自算出の注目度): 3.265773263570237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of Sequential Estimation under Multiple Resources (SEMR) is
defined in a federated setting. SEMR could be considered as the intersection of
statistical estimation and bandit theory. In this problem, an agent is
confronting with k resources to estimate a parameter $\theta$. The agent should
continuously learn the quality of the resources by wisely choosing them and at
the end, proposes an estimator based on the collected data. In this paper, we
assume that the resources' distributions are Gaussian. The quality of the final
estimator is evaluated by its mean squared error. Also, we restrict our class
of estimators to unbiased estimators in order to define a meaningful notion of
regret. The regret measures the performance of the agent by the variance of the
final estimator in comparison to the optimal variance. We propose a lower bound
to determine the fundamental limit of the setting even in the case that the
distributions are not Gaussian. Also, we offer an order-optimal algorithm to
achieve this lower bound.
- Abstract(参考訳): 複数資源(SEMR)に基づく逐次推定の問題は、連合した設定で定義される。
SEMRは統計的推定とバンド理論の交叉と見なすことができる。
この問題では、エージェントはパラメータを$\theta$と見積もるためにkリソースに直面します。
エージェントは、適切に選択することで、資源の品質を継続的に学習し、最後に、収集したデータに基づいた推定器を提案する。
本稿では,資源分布がガウス分布であると仮定する。
最終推定器の品質は平均二乗誤差によって評価される。
また、後悔の有意義な概念を定義するために、偏りのない推定者のクラスを制限します。
後悔は、最適分散と比較して最終推定値のばらつきによってエージェントの性能を測定する。
分布がガウス的でない場合であっても,集合の基本極限を決定するための下限を提案する。
また、この下限を達成するための順序最適化アルゴリズムを提供する。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - Semiparametric Best Arm Identification with Contextual Information [10.915684166086026]
バンディット問題において,固定予算と文脈情報を用いたベストアーム識別について検討した。
本研究では,ターゲットアロケーション比とレコメンデーションルールを追跡するランダムサンプリングルールとからなる「コンテキストRS-AIPW戦略」を開発する。
提案手法は,予算が無限に進むと,誤識別確率の上限が半下限と一致するため,最適である。
論文 参考訳(メタデータ) (2022-09-15T14:38:47Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Adversarial Meta-Learning of Gamma-Minimax Estimators That Leverage
Prior Knowledge [1.0152838128195467]
ベイズ推定器は、事前の知識を組み込む手段としてよく知られている。
この知識が1つの事前で表現するには曖昧すぎる場合、別のアプローチが必要である。
ガンマ・ミニマックス推定器は、以前の分布のGamma$に対して最悪のベイズリスクを最小限に抑える。
論文 参考訳(メタデータ) (2020-12-10T05:39:17Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。