Fugu-MT 論文翻訳(概要): Oracle-Efficient Online Learning for Beyond Worst-Case Adversaries

論文の概要: Oracle-Efficient Online Learning for Beyond Worst-Case Adversaries

arxiv url: http://arxiv.org/abs/2202.08549v1
Date: Thu, 17 Feb 2022 09:49:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-18 20:35:21.268080
Title: Oracle-Efficient Online Learning for Beyond Worst-Case Adversaries
Title（参考訳）: oracleによる最悪の敵に対するオンライン学習の効率化
Authors: Nika Haghtalab, Yanjun Han, Abhishek Shetty, Kunhe Yang
Abstract要約: オンライン学習の最悪のケース分析を超越した,オラクル効率のアルゴリズムについて検討する。このスムーズな分析設定のために,本研究は,スムーズな相手を持つオンライン学習のための最初のオラクル効率のアルゴリズムを提供する。
参考スコア（独自算出の注目度）: 29.598518028635716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we study oracle-efficient algorithms for beyond worst-case analysis of online learning. We focus on two settings. First, the smoothed analysis setting of [RST11, HRS12] where an adversary is constrained to generating samples from distributions whose density is upper bounded by $1/\sigma$ times the uniform density. Second, the setting of $K$-hint transductive learning, where the learner is given access to $K$ hints per time step that are guaranteed to include the true instance. We give the first known oracle-efficient algorithms for both settings that depend only on the VC dimension of the class and parameters $\sigma$ and $K$ that capture the power of the adversary. In particular, we achieve oracle-efficient regret bounds of $ O ( \sqrt{T (d / \sigma )^{1/2} } ) $ and $ O ( \sqrt{T d K } )$ respectively for these setting. For the smoothed analysis setting, our results give the first oracle-efficient algorithm for online learning with smoothed adversaries [HRS21]. This contrasts the computational separation between online learning with worst-case adversaries and offline learning established by [HK16]. Our algorithms also imply improved bounds for worst-case setting with small domains. In particular, we give an oracle-efficient algorithm with regret of $O ( \sqrt{T(d \vert{\mathcal{X}}\vert ) ^{1/2} })$, which is a refinement of the earlier $O ( \sqrt{T\vert{\mathcal{X} } \vert })$ bound by [DS16].
Abstract（参考訳）: 本稿では,オンライン学習の最悪のケース分析を超越した,オラクル効率のアルゴリズムについて検討する。私たちは2つの設定に集中します。まず,[rst11,hrs12]の平滑化解析設定は,一様密度の1/\sigma$倍の上限値を持つ分布からサンプルを生成することに制約される。第二に、$K$-hintトランスダクティブ学習の設定では、学習者が真のインスタンスを含むことが保証される時間毎に$K$ヒントにアクセスできるようになる。私たちは、クラスのvc次元のみに依存する設定と、敵の力をキャプチャする$\sigma$と$k$の両方に対して、最初のoracle効率の高いアルゴリズムを提供します。特に、これらの設定に対してそれぞれ$ O ( \sqrt{T (d / \sigma )^{1/2} } ) $ と $ O ( \sqrt{T d K } )$ のオラクル効率の後悔境界を達成する。このスムーズな分析設定のために,本研究は,スムーズな相手を用いたオンライン学習のための最初のオラクル効率アルゴリズムを提供する[HRS21]。これは[HK16]が確立したオフライン学習と, オンライン学習と最悪の相手との計算的分離とは対照的である。私たちのアルゴリズムは、小さなドメインで最悪の場合のバウンダリも改善しています。特に、$O ( \sqrt{T(d \vert{\mathcal{X}}\vert ) ^{1/2} })$を後悔したオラクル効率のアルゴリズムを与え、これは [DS16] で束縛された以前の$O ( \sqrt{T\vert{\mathcal{X} } \vert })$の洗練である。

関連論文リスト

Learning and Computation of $Φ$-Equilibria at the Frontier of Tractability [85.07238533644636]
$Phi$-equilibriaは、オンライン学習とゲーム理論の中心にある、強力で柔軟なフレームワークだ。効率的なオンラインアルゴリズムは、$textpoly(d, k)/epsilon2$ラウンドを使用して、平均$Phi$-regretを最大$epsilon$で生成することを示す。また、オンライン設定において、ほぼ一致した下限を示し、その結果、$Phi$-regretの学習可能性を取得する偏差の族が初めて得られる。
論文参考訳（メタデータ） (2025-02-25T19:08:26Z)
Beyond $\mathcal{O}(\sqrt{T})$ Regret: Decoupling Learning and Decision-making in Online Linear Programming [7.518108920887426]
本稿では,LP双対問題が一定の誤差境界条件を示す場合に,$mathcalO ( sqrtT )$の結果を改善するための一般的な枠組みを確立する。連続的なサポート設定において,1次学習アルゴリズムが$o(sqrtT )$後悔し,非退化仮定以外の有限サポート設定において$mathcalO (log T)$後悔することを示す。
論文参考訳（メタデータ） (2025-01-06T04:57:44Z)
Upper and Lower Bounds for Distributionally Robust Off-Dynamics Reinforcement Learning [6.236688509180343]
政策訓練と展開環境が異なるオフダイナミックス強化学習(RL)について検討する。 We-DRIVE-Uは,平均的最適値$widetildemathcalObig(d H cdot min 1/rho, H/sqrtK big)$を満足するアルゴリズムを提案する。また、新しいハードインスタンスを構築し、この設定で最初の情報理論の下界を導出する。
論文参考訳（メタデータ） (2024-09-30T17:21:15Z)
Oracle-Efficient Hybrid Online Learning with Unknown Distribution [16.73555330791045]
有限VCクラスに対して$tildeO(Tfrac34)$,$tildeO(Tfracp+1p+2)$に対して$alpha$fat-shattering dimensionを持つクラスに対して$tildeO(Tfracp+1p+2)$という,計算効率のよいオンライン予測器が存在することを示す。すると、結果が$K$変更で分布をシフトするシナリオにまで拡張され、$tildeO(Tfrac45Kfrac15)が返り咲く。
論文参考訳（メタデータ） (2024-01-27T22:45:02Z)
Best-of-Both-Worlds Algorithms for Linear Contextual Bandits [11.94312915280916]
両世界のベスト・オブ・ワールドズ・アルゴリズムを$K$武器付き線形文脈包帯に対して検討する。我々のアルゴリズムは、敵対的体制と敵対的体制の両方において、ほぼ最適の後悔の限界を提供する。
論文参考訳（メタデータ） (2023-12-24T08:27:30Z)
Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文参考訳（メタデータ） (2023-05-15T05:37:32Z)
Projection-free Online Exp-concave Optimization [21.30065439295409]
LOOをベースとしたONSスタイルのアルゴリズムを提案する。これは全体$O(T)$コールを使用して,$widetildeO(n2/3T2/3)$でバウンドされた最悪のケースを保証します。我々のアルゴリズムは、重要かつ確実な低次元データシナリオにおいて最も興味深い。
論文参考訳（メタデータ） (2023-02-09T18:58:05Z)
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文参考訳（メタデータ） (2022-05-23T17:59:18Z)
Corralling a Larger Band of Bandits: A Case Study on Switching Regret for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。 Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文参考訳（メタデータ） (2022-02-12T21:55:44Z)
Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文参考訳（メタデータ） (2021-11-09T16:50:18Z)
Contextual Recommendations and Low-Regret Cutting-Plane Algorithms [49.91214213074933]
本稿では、ナビゲーションエンジンやレコメンデーションシステムにおけるルーティングアプリケーションによって動機付けられた、コンテキスト線形帯域の次の変種について考察する。我々は、真の点$w*$と分離オラクルが返す超平面の間の全距離を、低い「回帰」を持つ新しい切断平面アルゴリズムを設計する。
論文参考訳（メタデータ） (2021-06-09T05:39:05Z)
Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。 learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文参考訳（メタデータ） (2021-02-15T08:16:51Z)
Online Learning with Vector Costs and Bandits with Knapsacks [8.340947016086739]
オンライン学習にベクターコスト(OLVCp)を導入し、各時間に1,ldots,T$の$tのステップで、未知のベクターコストを発生させるアクションを実行する必要がある。オンラインアルゴリズムの目標は、コストベクトルの和の$ell_p$ノルムを最小化することである。
論文参考訳（メタデータ） (2020-10-14T18:28:41Z)
Taking a hint: How to leverage loss predictors in contextual bandits? [63.546913998407405]
我々は,損失予測の助けを借りて,文脈的包帯における学習を研究する。最適な後悔は$mathcalO(minsqrtT, sqrtmathcalETfrac13)$である。
論文参考訳（メタデータ） (2020-03-04T07:36:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。