Fugu-MT 論文翻訳(概要): Minimum mean-squared error estimation with bandit feedback

論文の概要: Minimum mean-squared error estimation with bandit feedback

arxiv url: http://arxiv.org/abs/2203.16810v4
Date: Fri, 02 May 2025 12:23:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-05 17:21:19.577369
Title: Minimum mean-squared error estimation with bandit feedback
Title（参考訳）: 帯域フィードバックを用いた最小平均2乗誤差推定
Authors: Ayon Ghosh, L. A. Prashanth, Dipayan Sen, Aditya Gopalan,
Abstract要約: 平均二乗誤差 (MSE) の意味で, 逐次的に推定を学習する問題を考察する。 2つのMSE推定器を提案し,その濃度特性を解析した。
参考スコア（独自算出の注目度）: 10.660855209170586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of sequentially learning to estimate, in the mean squared error (MSE) sense, a Gaussian $K$-vector of unknown covariance by observing only $m < K$ of its entries in each round. We propose two MSE estimators, and analyze their concentration properties. The first estimator is non-adaptive, as it is tied to a predetermined $m$-subset and lacks the flexibility to transition to alternative subsets. The second estimator, which is derived using a regression framework, is adaptive and exhibits better concentration bounds in comparison to the first estimator. We frame the MSE estimation problem with bandit feedback, where the objective is to find the MSE-optimal subset with high confidence. We propose a variant of the successive elimination algorithm to solve this problem. We also derive a minimax lower bound to understand the fundamental limit on the sample complexity of this problem.
Abstract（参考訳）: 平均二乗誤差 (MSE) の意味で、各ラウンドにおけるエントリの$m < K$のみを観測することにより、未知の共分散のガウス$K$-ベクターを逐次学習して推定する問題を考察する。 2つのMSE推定器を提案し,その濃度特性を解析した。最初の推定子は、所定の$m$-subsetに結び付けられ、代替サブセットへの移行の柔軟性に欠けるため、非適応的である。回帰フレームワークを用いて導出された第2推定器は適応的であり、第1推定器と比較してより良い濃度境界を示す。我々は,MSE推定問題を帯域幅フィードバックで計算し,MSE最適部分集合を高い信頼度で見つけることを目的とする。この問題を解決するために,逐次除去アルゴリズムの変種を提案する。また、この問題のサンプル複雑性の基本的な限界を理解するために、ミニマックス下界を導出する。

関連論文リスト

Minimax Rate-Optimal Algorithms for High-Dimensional Stochastic Linear Bandits [1.2010968598596632]
我々は、T$のラウンドで複数のアームで線形バンディット問題を研究した。ラッソ推定器はシーケンシャルセッティングにおいて確実に準最適であることを示す。しきい値付きラッソを主推定法として用いた3段アーム選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-23T02:20:00Z)
Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文参考訳（メタデータ） (2024-10-22T10:19:27Z)
GROS: A General Robust Aggregation Strategy [49.1574468325115]
距離空間における推定器を組み合わせるための新しい、非常に一般的な、堅牢な手順が導入された。最小化が標本を乗っ取ると、同じ(定数まで)準ガウス性が得られることを示す。 GROSの性能は5つのシミュレーション研究により評価した。
論文参考訳（メタデータ） (2024-02-23T17:00:32Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Optimality in Mean Estimation: Beyond Worst-Case, Beyond Sub-Gaussian, and Beyond $1+\alpha$ Moments [10.889739958035536]
本稿では,アルゴリズムの微細な最適性を分析するための新しい定義フレームワークを提案する。平均値の中央値は近傍最適であり, 一定の要因が得られている。定数係数のずれのない近傍分離推定器を見つけることは自由である。
論文参考訳（メタデータ） (2023-11-21T18:50:38Z)
Minimum-Risk Recalibration of Classifiers [9.31067660373791]
平均二乗誤差分解の枠組みにおいて,最小リスク再校正の概念を導入する。校正分類器の転送には,スクラッチから再校正するのに比べて,ターゲットサンプルが著しく少ないことが示されている。
論文参考訳（メタデータ） (2023-05-18T11:27:02Z)
Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-21T00:17:24Z)
Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。モデルに基づく手法では、MVPアルゴリズムの変種を設計する。特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文参考訳（メタデータ） (2023-01-31T06:54:06Z)
Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文参考訳（メタデータ） (2021-11-12T01:51:50Z)
Direct Measure Matching for Crowd Counting [59.66286603624411]
そこで本研究では,予測密度マップを散乱点付基底真理に直接回帰する測度に基づく新しい計数手法を提案する。本稿では, シンクホーンの測位損失を計測するために設計した, 半平衡型のシンクホーン発散を導出する。
論文参考訳（メタデータ） (2021-07-04T06:37:33Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
SNIPS: Solving Noisy Inverse Problems Stochastically [25.567566997688044]
本稿では,線形逆問題の後部分布からサンプルを抽出するSNIPSアルゴリズムを提案する。我々の解はランゲヴィン力学とニュートン法からのアイデアを取り入れ、事前訓練された最小二乗誤差(MMSE)を利用する。得られたサンプルは、与えられた測定値と鋭く、詳細で一致しており、それらの多様性は、解決される逆問題に固有の不確実性を明らかにする。
論文参考訳（メタデータ） (2021-05-31T13:33:21Z)
An Empirical Process Approach to the Union Bound: Practical Algorithms for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-21T00:56:33Z)
Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文参考訳（メタデータ） (2020-06-19T22:49:42Z)
Explicit Mean-Square Error Bounds for Monte-Carlo and Linear Stochastic Approximation [4.817429789586127]
基礎となるマルコフ連鎖が可逆で幾何学的にエルゴードである場合でも、誤差列に有界なホーフディングを得ることはできない。平均二乗誤差は、ステップサイズシーケンスの条件の下で、$O(1/n)$の最適率を達成する。
論文参考訳（メタデータ） (2020-02-07T01:52:21Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。