論文の概要: Infinite Action Contextual Bandits with Reusable Data Exhaust
- arxiv url: http://arxiv.org/abs/2302.08551v2
- Date: Wed, 7 Jun 2023 22:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:30:30.150454
- Title: Infinite Action Contextual Bandits with Reusable Data Exhaust
- Title(参考訳): 再利用可能なデータ排気を伴う無限動作コンテキストバンディット
- Authors: Mark Rucker, Yinglun Zhu, Paul Mineiro
- Abstract要約: 後悔とレグレッションの低減は、アクションセットに依存しない計算コストで、最先端のオンラインパフォーマンスをもたらす。
本稿では, オンラインアルゴリズムと等価なスムーズな後悔保証法について述べるが, 重み付けを適切に定義する。
- 参考スコア(独自算出の注目度): 12.160708336715489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For infinite action contextual bandits, smoothed regret and reduction to
regression results in state-of-the-art online performance with computational
cost independent of the action set: unfortunately, the resulting data exhaust
does not have well-defined importance-weights. This frustrates the execution of
downstream data science processes such as offline model selection. In this
paper we describe an online algorithm with an equivalent smoothed regret
guarantee, but which generates well-defined importance weights: in exchange,
the online computational cost increases, but only to order smoothness (i.e.,
still independent of the action set). This removes a key obstacle to adoption
of smoothed regret in production scenarios.
- Abstract(参考訳): 無限のアクションコンテキストのバンディットに対して、後悔の平滑化と回帰の削減は、アクションセットに依存しない計算コストを伴う最先端のオンラインパフォーマンスをもたらす。
これにより、オフラインモデル選択などのダウンストリームデータサイエンスプロセスの実行が抑制される。
本稿では,オンライン計算コストの増大と引き換えに,スムーズさ(つまり,アクションセットとはいまだに独立している)の順にのみ,その重み付けを適切に定義するオンラインアルゴリズムについて述べる。
これにより、運用シナリオにおけるスムーズな後悔の導入に対する重要な障害が取り除かれる。
関連論文リスト
- Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Understanding Collapse in Non-Contrastive Learning [122.2499276246997]
モデルがデータセットサイズに対して小さすぎる場合,SimSiam表現が部分次元崩壊することを示す。
本稿では,この崩壊の度合いを計測し,微調整やラベルを使わずに下流のタスク性能を予測できる指標を提案する。
論文 参考訳(メタデータ) (2022-09-29T17:59:55Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Online Forgetting Process for Linear Regression Models [18.336825781223034]
EUの「禁止すべき権利」規制に動機付けられて、統計データ削除問題の研究を開始した。
本稿では,低次元ケースに対する削除認識アルゴリズムのtextttFIFD-OLS を提案し,破滅的なランク揺らぎ現象を目撃する。
本稿では,新しいオンライン正規化手法を用いたtextttFIFD-Adaptive Ridge アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T02:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。