Fugu-MT 論文翻訳(概要): Online Sequential Decision-Making with Unknown Delays

論文の概要: Online Sequential Decision-Making with Unknown Delays

arxiv url: http://arxiv.org/abs/2402.07703v1
Date: Mon, 12 Feb 2024 15:17:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 13:52:51.722416
Title: Online Sequential Decision-Making with Unknown Delays
Title（参考訳）: 未知の遅延を伴うオンラインシークエンシャル意思決定
Authors: Ping Wu and Heyan Huang and Zhengyang Liu
Abstract要約: 本稿では,様々な種類のフィードバックを処理するために,近似解に基づく遅延アルゴリズムの3つのファミリを提案する。各アルゴリズムに対して、一般凸性および相対的強凸性の場合の対応する後悔境界を提供する。我々の理論的結果は、標準設定に分解されたときの現在の最良の境界と一致している。
参考スコア（独自算出の注目度）: 42.06479169761205
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the field of online sequential decision-making, we address the problem with delays utilizing the framework of online convex optimization (OCO), where the feedback of a decision can arrive with an unknown delay. Unlike previous research that is limited to Euclidean norm and gradient information, we propose three families of delayed algorithms based on approximate solutions to handle different types of received feedback. Our proposed algorithms are versatile and applicable to universal norms. Specifically, we introduce a family of Follow the Delayed Regularized Leader algorithms for feedback with full information on the loss function, a family of Delayed Mirror Descent algorithms for feedback with gradient information on the loss function and a family of Simplified Delayed Mirror Descent algorithms for feedback with the value information of the loss function's gradients at corresponding decision points. For each type of algorithm, we provide corresponding regret bounds under cases of general convexity and relative strong convexity, respectively. We also demonstrate the efficiency of each algorithm under different norms through concrete examples. Furthermore, our theoretical results are consistent with the current best bounds when degenerated to standard settings.
Abstract（参考訳）: オンライン・シーケンシャルな意思決定の分野では、オンライン・凸最適化(oco)の枠組みを利用して遅延の問題に対処し、決定のフィードバックが未知の遅延で届くようにする。ユークリッドノルムや勾配情報に限定された従来の研究とは異なり、様々な種類のフィードバックを処理する近似解に基づく遅延アルゴリズムの3つのファミリーを提案する。提案アルゴリズムは万能であり,普遍規範にも適用可能である。具体的には、損失関数の完全な情報によるフィードバックのための遅延正規化リーダアルゴリズムのファミリーと、損失関数の勾配情報によるフィードバックのための遅延ミラーDescentアルゴリズムのファミリーと、損失関数の勾配の値情報によるフィードバックのための単純化された遅延ミラーDescentアルゴリズムのファミリーを紹介する。各アルゴリズムに対して、一般凸性および相対的強凸性の場合の対応する後悔境界を提供する。また,具体的な例によって,各アルゴリズムの効率性を異なる規範で示す。さらに, 理論結果は, 標準設定に分解した場合の現在の最適境界値と一致している。

関連論文リスト

Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains [67.71020482405343]
評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-01-31T08:38:21Z)
Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文参考訳（メタデータ） (2024-10-22T10:19:27Z)
Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret [10.700891331004799]
本稿では,非損失関数を用いた分散オンライン帯域最適化問題について検討する。プレイヤーは敵を選択し、そのプレイヤーに任意の非線形損失関数を割り当てる。予想されるアルゴリズムの後悔は、2点偏差を用いた既存のアルゴリズムに匹敵する。
論文参考訳（メタデータ） (2024-09-24T02:37:33Z)
A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。 MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文参考訳（メタデータ） (2024-07-19T08:29:12Z)
A Unified Framework for Analyzing Meta-algorithms in Online Convex Optimization [33.38582292895673]
完全適応逆数を用いたオンライン線形最適化のアルゴリズムは,オンライン凸最適化のアルゴリズムであることを示す。これを用いて、一般メタアルゴリズムを記述し、決定論的アルゴリズムを同様の後悔境界を持つゼロ次アルゴリズムに変換する。
論文参考訳（メタデータ） (2024-02-13T17:42:27Z)
Handling Delayed Feedback in Distributed Online Optimization : A Projection-Free Approach [1.9797215742507548]
大量のデータが局所的に連続的に生成されるように、エッジでの学習はますます重要になっている。本稿では,B が遅延の和である O(sqrtB) の後悔境界を達成するために慎重に設計された,集中的および分散的設定のための2つのプロジェクションフリーアルゴリズムを提案する。本研究では,実世界の問題において,既存の問題と比較することにより,アルゴリズムの性能を実験的に検証する。
論文参考訳（メタデータ） (2024-02-03T10:43:22Z)
Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文参考訳（メタデータ） (2023-03-01T16:22:22Z)
Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文参考訳（メタデータ） (2022-05-13T21:09:41Z)
Solving Inverse Problems by Joint Posterior Maximization with Autoencoding Prior [0.0]
JPal Autoencoder (VAE) が先行する画像における不適切な逆問題解決の問題に対処する。本手法は,提案した目的関数を満たすのに十分であることを示す。結果は、より堅牢な見積もりを提供するアプローチの堅牢性も示しています。
論文参考訳（メタデータ） (2021-03-02T11:18:34Z)
A closer look at temporal variability in dynamic online learning [19.468067110814808]
この作品は、完全な情報でオンライン学習の文脈でダイナミックな後悔の設定に焦点を当てています。損失関数の列は時間とともに大きく変化しないと仮定することにより、既存の結果と比較して改善された後悔境界を導き出すことが可能であることを示す。
論文参考訳（メタデータ） (2021-02-15T16:50:16Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。