論文の概要: Optimistically Tempered Online Learning
- arxiv url: http://arxiv.org/abs/2301.07530v2
- Date: Wed, 14 Feb 2024 15:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 20:40:13.458821
- Title: Optimistically Tempered Online Learning
- Title(参考訳): 最適化されたオンライン学習
- Authors: Maxime Haddouche and Olivier Wintenberger and Benjamin Guedj
- Abstract要約: 最適化オンライン学習アルゴリズムは、楽観的に常に有用であると仮定された専門家のアドバイスを利用する。
我々は,オンライン学習フレームワークと,オンラインアルゴリズムのOT適応を開発する。
我々のアルゴリズムは、動的後悔境界という形で、音理論上の保証を伴っている。
- 参考スコア(独自算出の注目度): 19.12634663761194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optimistic Online Learning algorithms have been developed to exploit expert
advices, assumed optimistically to be always useful. However, it is legitimate
to question the relevance of such advices \emph{w.r.t.} the learning
information provided by gradient-based online algorithms. In this work, we
challenge the confidence assumption on the expert and develop the
\emph{optimistically tempered} (OT) online learning framework as well as OT
adaptations of online algorithms. Our algorithms come with sound theoretical
guarantees in the form of dynamic regret bounds, and we eventually provide
experimental validation of the usefulness of the OT approach.
- Abstract(参考訳): 専門家のアドバイスを活用するために最適化オンライン学習アルゴリズムが開発された。
しかし、グラデーションベースのオンラインアルゴリズムによって提供される学習情報に対して、そのようなアドバイスの妥当性を疑うのは妥当である。
本研究では,専門家に対する信頼感の仮定に挑戦し,オンラインアルゴリズムのot適応と同様に,オンライン学習フレームワーク \emph{optimistically tempered} (ot)を開発した。
我々のアルゴリズムは動的後悔境界という形で健全な理論的保証を伴い、最終的にはotアプローチの有用性を実験的に検証する。
関連論文リスト
- Discounted Adaptive Online Prediction [6.2825062988372125]
適応型オンライン学習において,近年開発された手法を応用して,古典的な軽率な後悔の概念を再考する。
我々の主な成果は、損失シーケンスとコンパレータの両方の複雑さに適応する新しいアルゴリズムである。
オンラインコンフォメーション予測(オンラインコンフォメーション予測)という,定員決定を伴う下流のオンライン学習タスクを通じて,このようなメリットを実証する。
論文 参考訳(メタデータ) (2024-02-05T04:29:39Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Online Attentive Kernel-Based Temporal Difference Learning [13.94346725929798]
オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目されている。
オンラインRLは、しばしば複雑な値関数近似(VFA)と破滅的な干渉に悩まされる。
2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)を提案する。
論文 参考訳(メタデータ) (2022-01-22T14:47:10Z) - Boosting for Online Convex Optimization [64.15578413206715]
多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。
弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。
ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-02-18T12:30:49Z) - Optimal Robustness-Consistency Trade-offs for Learning-Augmented Online
Algorithms [85.97516436641533]
機械学習予測を取り入れたオンラインアルゴリズムの性能向上の課題について検討する。
目標は、一貫性と堅牢性の両方を備えたアルゴリズムを設計することだ。
機械学習予測を用いた競合解析のための非自明な下界の最初のセットを提供する。
論文 参考訳(メタデータ) (2020-10-22T04:51:01Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - A Modern Introduction to Online Learning [15.974402990630402]
オンライン学習(オンライン学習)とは、最悪の場合における後悔の最小化の枠組みを指す。
凸損失を伴うオンライン学習のための一階と二階のアルゴリズムを提示する。
論文 参考訳(メタデータ) (2019-12-31T08:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。