論文の概要: Adaptive Estimation of Random Vectors with Bandit Feedback: A
mean-squared error viewpoint
- arxiv url: http://arxiv.org/abs/2203.16810v3
- Date: Thu, 11 Jan 2024 05:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-13 04:27:13.413222
- Title: Adaptive Estimation of Random Vectors with Bandit Feedback: A
mean-squared error viewpoint
- Title(参考訳): 帯域フィードバックを用いたランダムベクトルの適応推定:平均二乗誤差視点
- Authors: Dipayan Sen, L.A. Prashanth and Aditya Gopalan
- Abstract要約: まず、MSE推定のための濃度を定めます。
次に,帯域幅フィードバックによる推定問題を列挙し,逐次除去アルゴリズムの変種を提案する。
- 参考スコア(独自算出の注目度): 13.089182408360225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of sequentially learning to estimate, in the mean
squared error (MSE) sense, a Gaussian $K$-vector of unknown covariance by
observing only $m < K$ of its entries in each round. We first establish a
concentration bound for MSE estimation. We then frame the estimation problem
with bandit feedback, and propose a variant of the successive elimination
algorithm. We also derive a minimax lower bound to understand the fundamental
limit on the sample complexity of this problem.
- Abstract(参考訳): 平均二乗誤差(mse)の意味では、各ラウンドのエントリのわずか$m < k$ を観測することによって、未知共分散のガウス的$k$-ベクトルを推定する逐次学習の問題を考える。
まず、MSE推定のための濃度を定めます。
次に,推定問題をバンディットフィードバックを用いてフレーム化し,逐次除去アルゴリズムの変種を提案する。
また、この問題のサンプル複雑性の基本的な限界を理解するために、ミニマックス下限も導出する。
関連論文リスト
- Minimax Rate-Optimal Algorithms for High-Dimensional Stochastic Linear Bandits [1.2010968598596632]
我々は、T$のラウンドで複数のアームで線形バンディット問題を研究した。
ラッソ推定器はシーケンシャルセッティングにおいて確実に準最適であることを示す。
しきい値付きラッソを主推定法として用いた3段アーム選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-23T02:20:00Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - GROS: A General Robust Aggregation Strategy [49.1574468325115]
距離空間における推定器を組み合わせるための新しい、非常に一般的な、堅牢な手順が導入された。
最小化が標本を乗っ取ると、同じ(定数まで)準ガウス性が得られることを示す。
GROSの性能は5つのシミュレーション研究により評価した。
論文 参考訳(メタデータ) (2024-02-23T17:00:32Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Optimality in Mean Estimation: Beyond Worst-Case, Beyond Sub-Gaussian,
and Beyond $1+\alpha$ Moments [10.889739958035536]
本稿では,アルゴリズムの微細な最適性を分析するための新しい定義フレームワークを提案する。
平均値の中央値は近傍最適であり, 一定の要因が得られている。
定数係数のずれのない近傍分離推定器を見つけることは自由である。
論文 参考訳(メタデータ) (2023-11-21T18:50:38Z) - Minimum-Risk Recalibration of Classifiers [9.31067660373791]
平均二乗誤差分解の枠組みにおいて,最小リスク再校正の概念を導入する。
校正分類器の転送には,スクラッチから再校正するのに比べて,ターゲットサンプルが著しく少ないことが示されている。
論文 参考訳(メタデータ) (2023-05-18T11:27:02Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。
推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。
本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文 参考訳(メタデータ) (2021-11-12T01:51:50Z) - Direct Measure Matching for Crowd Counting [59.66286603624411]
そこで本研究では,予測密度マップを散乱点付基底真理に直接回帰する測度に基づく新しい計数手法を提案する。
本稿では, シンクホーンの測位損失を計測するために設計した, 半平衡型のシンクホーン発散を導出する。
論文 参考訳(メタデータ) (2021-07-04T06:37:33Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - SNIPS: Solving Noisy Inverse Problems Stochastically [25.567566997688044]
本稿では,線形逆問題の後部分布からサンプルを抽出するSNIPSアルゴリズムを提案する。
我々の解はランゲヴィン力学とニュートン法からのアイデアを取り入れ、事前訓練された最小二乗誤差(MMSE)を利用する。
得られたサンプルは、与えられた測定値と鋭く、詳細で一致しており、それらの多様性は、解決される逆問題に固有の不確実性を明らかにする。
論文 参考訳(メタデータ) (2021-05-31T13:33:21Z) - An Empirical Process Approach to the Union Bound: Practical Algorithms
for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。
サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。
また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-21T00:56:33Z) - Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。
混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-06-19T22:49:42Z) - Explicit Mean-Square Error Bounds for Monte-Carlo and Linear Stochastic
Approximation [4.817429789586127]
基礎となるマルコフ連鎖が可逆で幾何学的にエルゴードである場合でも、誤差列に有界なホーフディングを得ることはできない。
平均二乗誤差は、ステップサイズシーケンスの条件の下で、$O(1/n)$の最適率を達成する。
論文 参考訳(メタデータ) (2020-02-07T01:52:21Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。