論文の概要: Second Order Regret Bounds Against Generalized Expert Sequences under
Partial Bandit Feedback
- arxiv url: http://arxiv.org/abs/2204.06660v1
- Date: Wed, 13 Apr 2022 22:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:03:32.955494
- Title: Second Order Regret Bounds Against Generalized Expert Sequences under
Partial Bandit Feedback
- Title(参考訳): 部分的バンディットフィードバック下における一般化エキスパート列に対する2次後悔境界
- Authors: Kaan Gokcesu, Hakan Gokcesu
- Abstract要約: 本稿では,部分帯域フィードバック設定下でのエキスパートアドバイスの問題について検討し,逐次ミニマックス最適アルゴリズムを作成する。
本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of expert advice under partial bandit feedback setting
and create a sequential minimax optimal algorithm. Our algorithm works with a
more general partial monitoring setting, where, in contrast to the classical
bandit feedback, the losses can be revealed in an adversarial manner. Our
algorithm adopts a universal prediction perspective, whose performance is
analyzed with regret against a general expert selection sequence. The regret we
study is against a general competition class that covers many settings (such as
the switching or contextual experts settings) and the expert selection
sequences in the competition class are determined by the application at hand.
Our regret bounds are second order bounds in terms of the sum of squared losses
and the normalized regret of our algorithm is invariant under arbitrary affine
transforms of the loss sequence. Our algorithm is truly online and does not use
any preliminary information about the loss sequences.
- Abstract(参考訳): 部分的バンディットフィードバック設定下でのエキスパートアドバイスの問題を調査し,逐次的ミニマックス最適アルゴリズムを作成する。
本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
本アルゴリズムは,一般専門家選択系列に対して後悔して解析する普遍的予測手法を採用している。
本研究は,多くの設定(切り替えや文脈の専門家設定など)をカバーする一般的な競争クラスに対して行われ,競争クラスにおける専門家選択シーケンスを手作業で決定する。
我々の後悔境界は二乗損失の和の2次境界であり、アルゴリズムの正規化された後悔は損失列の任意のアフィン変換の下で不変である。
我々のアルゴリズムは真にオンラインであり、損失シーケンスに関する予備情報を使用しない。
関連論文リスト
- Non-stochastic Bandits With Evolving Observations [47.61533665679308]
既存のモデルを統一し一般化する新しいオンライン学習フレームワークを導入する。
我々は,全情報設定と帯域幅設定の両方に対して,後悔の最小化アルゴリズムを提案する。
我々のアルゴリズムは、多くの特別なケースにまたがる既知の後悔境界と一致し、以前にも知られていない境界も導入する。
論文 参考訳(メタデータ) (2024-05-27T05:32:46Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Data Dependent Regret Guarantees Against General Comparators for Full or
Bandit Feedback [0.0]
対戦型オンライン学習問題について検討し、完全オンライン・アルゴリズム・フレームワークを構築した。
我々のアルゴリズムは普遍的な予測の観点から機能し、使用する性能指標は任意のコンパレータ列に対する期待された後悔である。
論文 参考訳(メタデータ) (2023-03-12T00:18:46Z) - Optimal Tracking in Prediction with Expert Advice [0.0]
専門家のアドバイス設定を用いて予測を検証し、専門家の集合が生み出す決定を組み合わせて意思決定を行うことを目的とする。
我々は、専門家のアドバイス設定による予測の下で、最小限の動的後悔を達成する。
我々のアルゴリズムは、このような普遍的に最適で適応的で真にオンラインの保証を、事前の知識なしで生成した最初のアルゴリズムです。
論文 参考訳(メタデータ) (2022-08-07T12:29:54Z) - Generalized Translation and Scale Invariant Online Algorithm for
Adversarial Multi-Armed Bandits [0.0]
敵の多腕バンディット問題について検討し、任意の翻訳と腕の損失のスケールで不変な完全にオンラインのアルゴリズムフレームワークを作成する。
我々のアルゴリズムは、普遍的な予測の観点から機能し、使用する性能指標は、任意のアーム選択シーケンスに対して期待された後悔である。
論文 参考訳(メタデータ) (2021-09-19T20:13:59Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - A Generalized Online Algorithm for Translation and Scale Invariant
Prediction with Expert Advice [0.0]
本稿では,専門家の助言問題による逐次予測において,一般競合クラスに対するアルゴリズムの期待された後悔について検討する。
我々の後悔の限界は任意のスケーリングと損失の翻訳の下で安定している。
論文 参考訳(メタデータ) (2020-09-09T15:45:28Z) - Comparator-adaptive Convex Bandits [77.43350984086119]
我々は,コンパレータのノルムが小さい場合,残差が小さい凸バンディットアルゴリズムを開発した。
アイデアを拡張して、リプシッツや滑らかな損失関数で包帯を凸する。
論文 参考訳(メタデータ) (2020-07-16T16:33:35Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。