論文の概要: No-Regret Learning with Unbounded Losses: The Case of Logarithmic
Pooling
- arxiv url: http://arxiv.org/abs/2202.11219v2
- Date: Tue, 10 Oct 2023 01:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 17:24:31.584917
- Title: No-Regret Learning with Unbounded Losses: The Case of Logarithmic
Pooling
- Title(参考訳): unbounded loss を用いた非回帰学習--対数プールの場合
- Authors: Eric Neyman and Tim Roughgarden
- Abstract要約: 対数プール法(対数プール)として知られる基本的および実用的アグリゲーション法に焦点をあてる。
オンラインの対戦環境において,最適なパラメータ集合を学習する問題を考察する。
本稿では,O(sqrtT log T)$experied regretに達する方法で,専門家の重みを学習するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.933990572597583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For each of $T$ time steps, $m$ experts report probability distributions over
$n$ outcomes; we wish to learn to aggregate these forecasts in a way that
attains a no-regret guarantee. We focus on the fundamental and practical
aggregation method known as logarithmic pooling -- a weighted average of log
odds -- which is in a certain sense the optimal choice of pooling method if one
is interested in minimizing log loss (as we take to be our loss function). We
consider the problem of learning the best set of parameters (i.e. expert
weights) in an online adversarial setting. We assume (by necessity) that the
adversarial choices of outcomes and forecasts are consistent, in the sense that
experts report calibrated forecasts. Imposing this constraint creates a (to our
knowledge) novel semi-adversarial setting in which the adversary retains a
large amount of flexibility. In this setting, we present an algorithm based on
online mirror descent that learns expert weights in a way that attains
$O(\sqrt{T} \log T)$ expected regret as compared with the best weights in
hindsight.
- Abstract(参考訳): t$の時間ステップ毎に、$m$のエキスパートは、n$の成果に対する確率分布を報告します。
我々は、ログ損失を最小化することに関心がある場合(損失関数となるために)、プーリング法を最適に選択するという意味で、対数プール法(対数プール法)と呼ばれる基本的で実践的な手法に焦点を当てる。
我々は,オンラインの対戦環境において,最適なパラメータセット(すなわち,専門家の重み付け)を学習する問題を考察する。
我々は、専門家が予測を校正するという意味で、結果と予測の敵対的な選択が一貫していると仮定する。
この制約を課すことで、敵が大量の柔軟性を保った(我々の知識に)新しい半敵設定が生まれます。
本研究では,オンラインミラー降下に基づくアルゴリズムを提示し,専門家の重み付けを学習し,後見の最良の重み付けと比較して,期待する後悔値o(\sqrt{t} \log t)$を得る。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Streaming Algorithms for Learning with Experts: Deterministic Versus
Robust [62.98860182111096]
エキスパート問題を伴うオンライン学習では、アルゴリズムは、T$day(または時間)ごとに結果を予測する必要がある。
目標は最小限のコストで予測を行うことだ。
最良専門家が$M$の誤りを犯したとき、後悔する$R$を達成するような決定論的アルゴリズムに対して、$widetildeOmegaleft(fracnMRTright)$の空間下界を示す。
論文 参考訳(メタデータ) (2023-03-03T04:39:53Z) - Private Online Prediction from Experts: Separations and Faster Rates [74.52487417350221]
専門家によるオンライン予測は機械学習の基本的な問題であり、いくつかの研究がプライバシーの制約の下でこの問題を研究している。
本研究では,非適応的敵に対する最良な既存アルゴリズムの残差を克服する新たなアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2022-10-24T18:40:19Z) - A Regret-Variance Trade-Off in Online Learning [14.41667013062914]
予測の分散が学習にどのように活用できるかを示す。
損失の減少を伴うオンライン予測では, 後悔に対する汚職の影響は大きなばらつきによって補うことができることを示す。
我々はその結果をオンライン線形回帰の設定にまで拡張する。
論文 参考訳(メタデータ) (2022-06-06T14:50:19Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Tight Bounds on Minimax Regret under Logarithmic Loss via
Self-Concordance [37.0414602993676]
連続)計量エントロピー $mathcalO(gamma-p)$ at scale $gamma$ を持つ任意の専門家クラスに対して、ミニマックス後悔は $mathcalO(np/(p+1))$ であることを示す。
我々の手法の応用として、専門家の非パラメトリックリプシッツ類に対するミニマックス後悔を解消する。
論文 参考訳(メタデータ) (2020-07-02T14:47:33Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Debiased Off-Policy Evaluation for Recommendation Systems [8.63711086812655]
A/Bテストは信頼できるが、時間と費用がかかり、失敗のリスクが伴う。
提案手法は,履歴データに対するアルゴリズムの性能を推定する手法である。
提案手法は,最先端手法よりも平均2乗誤差が小さい。
論文 参考訳(メタデータ) (2020-02-20T02:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。