Fugu-MT 論文翻訳(概要): Batch Ensemble for Variance Dependent Regret in Stochastic Bandits

論文の概要: Batch Ensemble for Variance Dependent Regret in Stochastic Bandits

arxiv url: http://arxiv.org/abs/2409.08570v1
Date: Fri, 13 Sep 2024 06:40:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 17:38:30.932777
Title: Batch Ensemble for Variance Dependent Regret in Stochastic Bandits
Title（参考訳）: 確率帯域における可変依存レグレクトのためのバッチアンサンブル
Authors: Asaf Cassel, Orin Levy, Yishay Mansour,
Abstract要約: オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
参考スコア（独自算出の注目度）: 41.95653110232677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficiently trading off exploration and exploitation is one of the key challenges in online Reinforcement Learning (RL). Most works achieve this by carefully estimating the model uncertainty and following the so-called optimistic model. Inspired by practical ensemble methods, in this work we propose a simple and novel batch ensemble scheme that provably achieves near-optimal regret for stochastic Multi-Armed Bandits (MAB). Crucially, our algorithm has just a single parameter, namely the number of batches, and its value does not depend on distributional properties such as the scale and variance of the losses. We complement our theoretical results by demonstrating the effectiveness of our algorithm on synthetic benchmarks.
Abstract（参考訳）: 効率的な探究と搾取のトレードオフは、オンライン強化学習(RL)における重要な課題の1つです。ほとんどの研究は、モデルの不確実性を慎重に推定し、いわゆる楽観的なモデルに従うことによってこれを達成している。実践的なアンサンブル法に着想を得た本研究では,確率的マルチアーマッド帯域(MAB)に対するほぼ最適の後悔を確実に達成する,単純で斬新なバッチアンサンブル方式を提案する。重要なことに、我々のアルゴリズムは1つのパラメータ、すなわちバッチ数を持ち、その値は損失のスケールや分散のような分布特性に依存しない。我々は,アルゴリズムの有効性を総合的なベンチマークで示すことによって,理論的結果を補完する。

関連論文リスト

LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文参考訳（メタデータ） (2025-10-01T12:52:25Z)
Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。 GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-16T02:24:21Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
TS-RSR: A provably efficient approach for batch bayesian optimization [4.622871908358325]
本稿では,Phompson Smpling-Regret to Sigma Ratio Direct sampleという,バッチベイズ最適化(BO)の新しい手法を提案する。我々のサンプリング目的は、各バッチで選択されたアクションを、ポイント間の冗長性を最小化する方法で調整することができる。提案手法は, 難解な合成および現実的なテスト機能において, 最先端の性能を達成できることを実証する。
論文参考訳（メタデータ） (2024-03-07T18:58:26Z)
Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文参考訳（メタデータ） (2023-11-02T06:09:24Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Convergence of uncertainty estimates in Ensemble and Bayesian sparse model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文参考訳（メタデータ） (2023-01-30T04:07:59Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Efficient Marginalization of Discrete and Structured Latent Variables via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。典型的には、真の限界のサンプリングに基づく近似に頼っている。そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-07-03T19:36:35Z)
Structure Adaptive Algorithms for Stochastic Bandits [22.871155520200773]
構造化多武装バンディット問題のクラスにおける報酬最大化について検討する。平均的な武器の報酬は、与えられた構造的制約を満たす。我々は、反復的なサドルポイントソルバを用いて、インスタンス依存の低バウンドからのアルゴリズムを開発する。
論文参考訳（メタデータ） (2020-07-02T08:59:54Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)
Joint Stochastic Approximation and Its Application to Learning Discrete Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文参考訳（メタデータ） (2020-05-28T13:50:08Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。