論文の概要: Bandits for BMO Functions
- arxiv url: http://arxiv.org/abs/2007.08703v1
- Date: Fri, 17 Jul 2020 00:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:03:03.637393
- Title: Bandits for BMO Functions
- Title(参考訳): BMO関数のためのバンド
- Authors: Tianyu Wang and Cynthia Rudin
- Abstract要約: 本稿では,BMO(Bunded Mean Oscillation)関数が期待される帯域幅問題について検討する。
我々は,BMO盗賊のためのツールセットを開発し,ポリログ$delta$-regretを達成するアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 27.681849132035584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the bandit problem where the underlying expected reward is a Bounded
Mean Oscillation (BMO) function. BMO functions are allowed to be discontinuous
and unbounded, and are useful in modeling signals with infinities in the
do-main. We develop a toolset for BMO bandits, and provide an algorithm that
can achieve poly-log $\delta$-regret -- a regret measured against an arm that
is optimal after removing a $\delta$-sized portion of the arm space.
- Abstract(参考訳): 本稿では,BMO(Bunded Mean Oscillation)関数が期待される帯域幅問題について検討する。
BMO関数は不連続かつ非有界であり、do-mainの無限小を持つ信号のモデリングに有用である。
我々は,BMO盗賊のためのツールセットを開発し,ポリログ$\delta$-regretを達成できるアルゴリズムを提供する。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Learning for Bandits under Action Erasures [20.235500642661812]
我々は,学習者が消去チャネル上で分散エージェントにアクションを伝える必要がある,新しいマルチアーム・バンディット(MAB)について考察する。
我々のモデルでは、分散エージェントはアクションが消去されるかどうかを知っているが、中心的な学習者は知らない。
本稿では,既存のMABアルゴリズム上で動作可能な手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T05:03:00Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Multi-armed Bandit Algorithm against Strategic Replication [5.235979896921492]
我々は,各エージェントが一組のアームを登録する多腕バンディット問題を考慮し,各エージェントがそのアームを選択すると報酬を受け取る。
エージェントは、より多くの武器を複製で戦略的に送信し、バンディットアルゴリズムの探索と探索のバランスを悪用することで、より多くの報酬をもたらす可能性がある。
本稿では,複製の復号化と,最小限の累積後悔を実現するバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-23T07:38:44Z) - Continuous Time Bandits With Sampling Costs [17.412117389855222]
連続時間マルチアームバンディット問題 (CTMAB) を考えると, 学習者は任意の間隔で何回でもアームをサンプリングし, サンプルからランダムな報酬を得ることができる。
サンプリング周波数の関数として、大きな報酬を得ることとサンプリングコストをもたらすことにはトレードオフがある。
目的は後悔を最小限に抑える学習アルゴリズムを設計することであり、これはオラクルのポリシーと学習アルゴリズムの報酬の差として定義される。
論文 参考訳(メタデータ) (2021-07-12T10:00:35Z) - Scale Free Adversarial Multi Armed Bandits [13.757095663704858]
本稿では,MAB(Scale-Free Adversarial Multi Armed Bandit)問題について考察する。
我々はFTRLアルゴリズムを設計するが、これはMABに対する最初の無スケールな後悔の保証が伴う。
また,Bregman Divergencesの局所ノルム下界を求める新しい手法を開発した。
論文 参考訳(メタデータ) (2021-06-08T21:26:57Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。