論文の概要: Data Dependent Regret Guarantees Against General Comparators for Full or
Bandit Feedback
- arxiv url: http://arxiv.org/abs/2303.06526v1
- Date: Sun, 12 Mar 2023 00:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:33:22.887734
- Title: Data Dependent Regret Guarantees Against General Comparators for Full or
Bandit Feedback
- Title(参考訳): 一般コンパレータに対するデータ依存レギュレーションの完全フィードバックと帯域フィードバック
- Authors: Kaan Gokcesu, Hakan Gokcesu
- Abstract要約: 対戦型オンライン学習問題について検討し、完全オンライン・アルゴリズム・フレームワークを構築した。
我々のアルゴリズムは普遍的な予測の観点から機能し、使用する性能指標は任意のコンパレータ列に対する期待された後悔である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the adversarial online learning problem and create a completely
online algorithmic framework that has data dependent regret guarantees in both
full expert feedback and bandit feedback settings. We study the expected
performance of our algorithm against general comparators, which makes it
applicable for a wide variety of problem scenarios. Our algorithm works from a
universal prediction perspective and the performance measure used is the
expected regret against arbitrary comparator sequences, which is the difference
between our losses and a competing loss sequence. The competition class can be
designed to include fixed arm selections, switching bandits, contextual
bandits, periodic bandits or any other competition of interest. The sequences
in the competition class are generally determined by the specific application
at hand and should be designed accordingly. Our algorithm neither uses nor
needs any preliminary information about the loss sequences and is completely
online. Its performance bounds are data dependent, where any affine transform
of the losses has no effect on the normalized regret.
- Abstract(参考訳): 本研究は, 逆オンライン学習問題について検討し, 完全専門家フィードバックと包括的フィードバック設定の両方において, 完全オンライン・アルゴリズム・フレームワークを構築した。
本研究では,一般比較器に対するアルゴリズムの期待性能について検討し,様々な問題シナリオに適用する。
我々のアルゴリズムは普遍的な予測の観点から機能し、使用する性能指標は任意のコンパレータ列に対する期待された後悔であり、これは我々の損失と競合する損失列との差である。
コンペティションクラスは固定アームの選択、スイッチング・バンディット、コンテキスト・バンディット、周期的バンディット、その他の興味ある競技を含むように設計されている。
コンペティションクラスのシーケンスは一般的に特定のアプリケーションによって決定され、それに応じて設計されるべきである。
我々のアルゴリズムは損失シーケンスに関する予備情報も不要であり、完全にオンラインである。
その性能境界はデータ依存であり、損失のアフィン変換は正規化された後悔に影響を与えない。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Optimal Tracking in Prediction with Expert Advice [0.0]
専門家のアドバイス設定を用いて予測を検証し、専門家の集合が生み出す決定を組み合わせて意思決定を行うことを目的とする。
我々は、専門家のアドバイス設定による予測の下で、最小限の動的後悔を達成する。
我々のアルゴリズムは、このような普遍的に最適で適応的で真にオンラインの保証を、事前の知識なしで生成した最初のアルゴリズムです。
論文 参考訳(メタデータ) (2022-08-07T12:29:54Z) - Second Order Regret Bounds Against Generalized Expert Sequences under
Partial Bandit Feedback [0.0]
本稿では,部分帯域フィードバック設定下でのエキスパートアドバイスの問題について検討し,逐次ミニマックス最適アルゴリズムを作成する。
本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
論文 参考訳(メタデータ) (2022-04-13T22:48:12Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Generalized Translation and Scale Invariant Online Algorithm for
Adversarial Multi-Armed Bandits [0.0]
敵の多腕バンディット問題について検討し、任意の翻訳と腕の損失のスケールで不変な完全にオンラインのアルゴリズムフレームワークを作成する。
我々のアルゴリズムは、普遍的な予測の観点から機能し、使用する性能指標は、任意のアーム選択シーケンスに対して期待された後悔である。
論文 参考訳(メタデータ) (2021-09-19T20:13:59Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Adapting to misspecification in contextual bandits with offline
regression oracles [7.312170216336086]
本稿では,適切な安全ポリシーに回帰することで,誤特定誤りに適応する文脈的帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。
論文 参考訳(メタデータ) (2021-02-26T00:15:04Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - A Generalized Online Algorithm for Translation and Scale Invariant
Prediction with Expert Advice [0.0]
本稿では,専門家の助言問題による逐次予測において,一般競合クラスに対するアルゴリズムの期待された後悔について検討する。
我々の後悔の限界は任意のスケーリングと損失の翻訳の下で安定している。
論文 参考訳(メタデータ) (2020-09-09T15:45:28Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。