論文の概要: Online Sequential Decision-Making with Unknown Delays
- arxiv url: http://arxiv.org/abs/2402.07703v1
- Date: Mon, 12 Feb 2024 15:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:52:51.722416
- Title: Online Sequential Decision-Making with Unknown Delays
- Title(参考訳): 未知の遅延を伴うオンラインシークエンシャル意思決定
- Authors: Ping Wu and Heyan Huang and Zhengyang Liu
- Abstract要約: 本稿では,様々な種類のフィードバックを処理するために,近似解に基づく遅延アルゴリズムの3つのファミリを提案する。
各アルゴリズムに対して、一般凸性および相対的強凸性の場合の対応する後悔境界を提供する。
我々の理論的結果は、標準設定に分解されたときの現在の最良の境界と一致している。
- 参考スコア(独自算出の注目度): 42.06479169761205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of online sequential decision-making, we address the problem
with delays utilizing the framework of online convex optimization (OCO), where
the feedback of a decision can arrive with an unknown delay. Unlike previous
research that is limited to Euclidean norm and gradient information, we propose
three families of delayed algorithms based on approximate solutions to handle
different types of received feedback. Our proposed algorithms are versatile and
applicable to universal norms. Specifically, we introduce a family of Follow
the Delayed Regularized Leader algorithms for feedback with full information on
the loss function, a family of Delayed Mirror Descent algorithms for feedback
with gradient information on the loss function and a family of Simplified
Delayed Mirror Descent algorithms for feedback with the value information of
the loss function's gradients at corresponding decision points. For each type
of algorithm, we provide corresponding regret bounds under cases of general
convexity and relative strong convexity, respectively. We also demonstrate the
efficiency of each algorithm under different norms through concrete examples.
Furthermore, our theoretical results are consistent with the current best
bounds when degenerated to standard settings.
- Abstract(参考訳): オンライン・シーケンシャルな意思決定の分野では、オンライン・凸最適化(oco)の枠組みを利用して遅延の問題に対処し、決定のフィードバックが未知の遅延で届くようにする。
ユークリッドノルムや勾配情報に限定された従来の研究とは異なり、様々な種類のフィードバックを処理する近似解に基づく遅延アルゴリズムの3つのファミリーを提案する。
提案アルゴリズムは万能であり,普遍規範にも適用可能である。
具体的には、損失関数の完全な情報によるフィードバックのための遅延正規化リーダアルゴリズムのファミリーと、損失関数の勾配情報によるフィードバックのための遅延ミラーDescentアルゴリズムのファミリーと、損失関数の勾配の値情報によるフィードバックのための単純化された遅延ミラーDescentアルゴリズムのファミリーを紹介する。
各アルゴリズムに対して、一般凸性および相対的強凸性の場合の対応する後悔境界を提供する。
また,具体的な例によって,各アルゴリズムの効率性を異なる規範で示す。
さらに, 理論結果は, 標準設定に分解した場合の現在の最適境界値と一致している。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret [10.700891331004799]
本稿では,非損失関数を用いた分散オンライン帯域最適化問題について検討する。
プレイヤーは敵を選択し、そのプレイヤーに任意の非線形損失関数を割り当てる。
予想されるアルゴリズムの後悔は、2点偏差を用いた既存のアルゴリズムに匹敵する。
論文 参考訳(メタデータ) (2024-09-24T02:37:33Z) - A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - A Generalized Approach to Online Convex Optimization [33.38582292895673]
完全適応逆数を用いたオンライン線形最適化のアルゴリズムは,オンライン凸最適化のアルゴリズムであることを示す。
完全情報フィードバックを必要とする任意のアルゴリズムは、半帯域フィードバックを持つアルゴリズムに変換される可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-13T17:42:27Z) - Handling Delayed Feedback in Distributed Online Optimization : A
Projection-Free Approach [1.9797215742507548]
大量のデータが局所的に連続的に生成されるように、エッジでの学習はますます重要になっている。
本稿では,B が遅延の和である O(sqrtB) の後悔境界を達成するために慎重に設計された,集中的および分散的設定のための2つのプロジェクションフリーアルゴリズムを提案する。
本研究では,実世界の問題において,既存の問題と比較することにより,アルゴリズムの性能を実験的に検証する。
論文 参考訳(メタデータ) (2024-02-03T10:43:22Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Solving Inverse Problems by Joint Posterior Maximization with
Autoencoding Prior [0.0]
JPal Autoencoder (VAE) が先行する画像における不適切な逆問題解決の問題に対処する。
本手法は,提案した目的関数を満たすのに十分であることを示す。
結果は、より堅牢な見積もりを提供するアプローチの堅牢性も示しています。
論文 参考訳(メタデータ) (2021-03-02T11:18:34Z) - A closer look at temporal variability in dynamic online learning [19.468067110814808]
この作品は、完全な情報でオンライン学習の文脈でダイナミックな後悔の設定に焦点を当てています。
損失関数の列は時間とともに大きく変化しないと仮定することにより、既存の結果と比較して改善された後悔境界を導き出すことが可能であることを示す。
論文 参考訳(メタデータ) (2021-02-15T16:50:16Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。