論文の概要: Online Action Learning in High Dimensions: A Conservative Perspective
- arxiv url: http://arxiv.org/abs/2009.13961v4
- Date: Sat, 23 Mar 2024 15:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 06:12:57.518342
- Title: Online Action Learning in High Dimensions: A Conservative Perspective
- Title(参考訳): 高次元におけるオンライン行動学習 : 保守的視点
- Authors: Claudio Cardoso Flores, Marcelo Cunha Medeiros,
- Abstract要約: 我々は、保守的な高次元崩壊する $epsilon_t$-greedy 則の累積後悔に対する妥当な境界を見出した。
理論的特性に影響を与えずに調整できるので、エンドユーザは、どの程度の安全性を期待できるかを確立するのに十分な柔軟性を持っていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential learning problems are common in several fields of research and practical applications. Examples include dynamic pricing and assortment, design of auctions and incentives and permeate a large number of sequential treatment experiments. In this paper, we extend one of the most popular learning solutions, the $\epsilon_t$-greedy heuristics, to high-dimensional contexts considering a conservative directive. We do this by allocating part of the time the original rule uses to adopt completely new actions to a more focused search in a restrictive set of promising actions. The resulting rule might be useful for practical applications that still values surprises, although at a decreasing rate, while also has restrictions on the adoption of unusual actions. With high probability, we find reasonable bounds for the cumulative regret of a conservative high-dimensional decaying $\epsilon_t$-greedy rule. Also, we provide a lower bound for the cardinality of the set of viable actions that implies in an improved regret bound for the conservative version when compared to its non-conservative counterpart. Additionally, we show that end-users have sufficient flexibility when establishing how much safety they want, since it can be tuned without impacting theoretical properties. We illustrate our proposal both in a simulation exercise and using a real dataset.
- Abstract(参考訳): シーケンシャル・ラーニングの問題は、いくつかの研究と実践の分野で一般的である。
例えば、動的価格や品揃え、オークションの設計、インセンティブなどがあり、多くのシーケンシャルな治療実験に浸透している。
本稿では,最もポピュラーな学習ソリューションである$\epsilon_t$-greedy Heuristicsを,保守的指示性を考慮した高次元文脈に拡張する。
私たちは、オリジナルルールが完全に新しいアクションを採用するために使用している時間の一部を、将来性のあるアクションの制限されたセットでより焦点を絞った検索に割り当てることで、これを実現しています。
結果のルールは、サプライズを価値付けする実用的なアプリケーションには有用かもしれないが、不規則なアクションの採用にも制限がある。
高い確率で、保守的な高次元の崩壊する $\epsilon_t$-greedy 則の累積的後悔に対する妥当な境界が見つかる。
また、保存的でないものと比較して、保守的バージョンに対する後悔の限界が改善したことを意味する、実行可能な行動の集合の濃度を低くする。
さらに, エンドユーザは, 理論的特性に影響を与えずに調整できるので, どの程度の安全性が期待できるかを判断する上で, 十分な柔軟性を有することを示す。
本提案では,シミュレーション演習と実際のデータセットの利用について解説する。
関連論文リスト
- Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - The Hessian Screening Rule [5.076419064097734]
ヘッセンスクリーニング規則はモデルからの2次情報を使用してより正確なスクリーニングを提供する。
このルールは, 相関性の高いシミュレーション実験において, 他の選択肢よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-27T07:55:29Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - The Strong Screening Rule for SLOPE [5.156484100374058]
我々は,SLOPEのサブディファレンシャルを検証して,SLOPEのスクリーニングルールを開発し,このルールがラッソの強い規則の一般化であることを示す。
我々の数値実験は、このルールが実際にうまく機能していることを示し、$p gg n$ ドメインのデータに対して桁違いに改善されることを示している。
論文 参考訳(メタデータ) (2020-05-07T20:14:20Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。