論文の概要: Oracle-Efficient Smoothed Online Learning for Piecewise Continuous
Decision Making
- arxiv url: http://arxiv.org/abs/2302.05430v1
- Date: Fri, 10 Feb 2023 18:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 14:56:36.246419
- Title: Oracle-Efficient Smoothed Online Learning for Piecewise Continuous
Decision Making
- Title(参考訳): Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making
- Authors: Adam Block, Alexander Rakhlin, and Max Simchowitz
- Abstract要約: この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
- 参考スコア(独自算出の注目度): 91.89643024162973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smoothed online learning has emerged as a popular framework to mitigate the
substantial loss in statistical and computational complexity that arises when
one moves from classical to adversarial learning. Unfortunately, for some
spaces, it has been shown that efficient algorithms suffer an exponentially
worse regret than that which is minimax optimal, even when the learner has
access to an optimization oracle over the space. To mitigate that exponential
dependence, this work introduces a new notion of complexity, the generalized
bracketing numbers, which marries constraints on the adversary to the size of
the space, and shows that an instantiation of Follow-the-Perturbed-Leader can
attain low regret with the number of calls to the optimization oracle scaling
optimally with respect to average regret. We then instantiate our bounds in
several problems of interest, including online prediction and planning of
piecewise continuous functions, which has many applications in fields as
diverse as econometrics and robotics.
- Abstract(参考訳): スムースなオンライン学習は、古典的な学習から逆の学習へと移行するときに生じる統計的および計算的複雑さのかなりの損失を軽減するために人気のあるフレームワークとして登場した。
残念なことに、いくつかの空間において、効率的なアルゴリズムは、学習者が空間上の最適化オラクルにアクセスしたとしても、ミニマックス最適であるよりも指数関数的に悪い後悔を被っていることが示されている。
指数関数的依存を緩和するため、本研究では、複雑性の新しい概念である一般化括弧数を導入し、空間の大きさに対する敵の制約を結婚させ、後続のリーダーのインスタンス化が、oracleが平均的な後悔に対して最適にスケーリングする最適化の呼び出し数で低い後悔を得ることができることを示す。
そして、オンラインの予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化し、計量学やロボット工学のような分野に多くの応用がある。
関連論文リスト
- Learning to Optimize for Mixed-Integer Non-linear Programming [20.469394148261838]
混合整数非NLPプログラム(MINLP)はエネルギーシステムや輸送など様々な領域で発生するが、解決は困難である。
機械学習の最近の進歩は、最適化のための学習として知られる領域において、顕著な成功をもたらしている。
勾配を保ちながら整数出力を生成する2つの異なる補正層を提案する。
論文 参考訳(メタデータ) (2024-10-14T20:14:39Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Near-Linear Time Algorithm with Near-Logarithmic Regret Per Switch for
Mixable/Exp-Concave Losses [0.0]
動的環境における対数的静的後悔を伴う混合損失関数のオンライン最適化について検討する。
文献では,スイッチ1回あたりのほぼ対数的後悔を1時間あたりのポリノミカルな複雑さで達成できることが確認できた。
論文 参考訳(メタデータ) (2021-09-28T15:06:31Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Learning fine-grained search space pruning and heuristics for
combinatorial optimization [5.72274610208488]
本稿では,機械学習技術を利用して正確な最適化アルゴリズムをスケールアップするフレームワークを提案する。
我々のフレームワークは、問題インスタンスのサイズを減らすために、要素を刈り取るという比較的単純なタスクを学習します。
我々のフレームワークは入力グラフのかなりの部分を取り除き、なおも最大傾きのほとんどを検出可能であることを示す。
論文 参考訳(メタデータ) (2020-01-05T13:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。