論文の概要: Experts with Lower-Bounded Loss Feedback: A Unifying Framework
- arxiv url: http://arxiv.org/abs/2012.09537v1
- Date: Thu, 17 Dec 2020 12:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:38:25.493464
- Title: Experts with Lower-Bounded Loss Feedback: A Unifying Framework
- Title(参考訳): 低境界の損失フィードバックの専門家:統一フレームワーク
- Authors: Eyal Gofer and Guy Gilboa
- Abstract要約: 我々はexp3の修正版に対する最適な後悔の限界を証明し、アルゴリズムと境界をバンディットと全情報設定の両方に一般化する。
この結果から,各ラウンドにおける専門家の任意のサブセットからのフィードバックを,グラフ構造化されたフィードバックで受けられるようにした。
また,各損失に対する非自明な下限を許容することにより,一貫したレベルの部分的フィードバックを許容する。
- 参考スコア(独自算出の注目度): 8.947188600472256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most prominent feedback models for the best expert problem are the full
information and bandit models. In this work we consider a simple feedback model
that generalizes both, where on every round, in addition to a bandit feedback,
the adversary provides a lower bound on the loss of each expert. Such lower
bounds may be obtained in various scenarios, for instance, in stock trading or
in assessing errors of certain measurement devices. For this model we prove
optimal regret bounds (up to logarithmic factors) for modified versions of
Exp3, generalizing algorithms and bounds both for the bandit and the
full-information settings. Our second-order unified regret analysis simulates a
two-step loss update and highlights three Hessian or Hessian-like expressions,
which map to the full-information regret, bandit regret, and a hybrid of both.
Our results intersect with those for bandits with graph-structured feedback, in
that both settings can accommodate feedback from an arbitrary subset of experts
on each round. However, our model also accommodates partial feedback at the
single-expert level, by allowing non-trivial lower bounds on each loss.
- Abstract(参考訳): 最高の専門家問題の最も顕著なフィードバックモデルは、完全な情報とバンディットモデルである。
本研究では,各ラウンドにおいて,バンディットフィードバックに加えて,各専門家の損失率を低く抑えるために,双方を一般化した単純なフィードバックモデルを検討する。
このような低い境界は、例えば株式取引や特定の測定装置の誤差を評価する際の様々なシナリオで得られる。
このモデルでは、Exp3の修正版に対する最適後悔境界(対数係数まで)を証明し、バンディットと全情報設定の両方に対してアルゴリズムと境界を一般化する。
我々の2段階の統合的後悔分析は、2段階の損失更新をシミュレートし、3つのヘッセン語やヘッセン語のような表現を強調します。
この結果から,各ラウンドにおける専門家の任意のサブセットからのフィードバックを,グラフ構造化されたフィードバックで受けられるようにした。
しかし,本モデルでは,各損失に対する非自明な下限を許容することで,単者レベルでの部分的なフィードバックを許容する。
関連論文リスト
- Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Doubly Adversarial Federated Bandits [7.23389716633927]
本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。
我々のアルゴリズムは、Cesa-Bianchi et alで提案されたオープンな質問に対して肯定的な答えを与える。
論文 参考訳(メタデータ) (2023-01-22T22:36:43Z) - Offline congestion games: How feedback type affects data coverage
requirement [41.608459163192684]
情報開示を減らした3種類のフィードバックについて検討する。
ゲームレベルのフィードバック設定ではエージェントレベルのフィードバック設定のカバレッジ仮定が不十分であることを示す。
最後に,新たなタイプのフィードバック,ゲームレベルのフィードバックについて考察する。
論文 参考訳(メタデータ) (2022-10-24T16:49:16Z) - Second Order Regret Bounds Against Generalized Expert Sequences under
Partial Bandit Feedback [0.0]
本稿では,部分帯域フィードバック設定下でのエキスパートアドバイスの問題について検討し,逐次ミニマックス最適アルゴリズムを作成する。
本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
論文 参考訳(メタデータ) (2022-04-13T22:48:12Z) - The price of unfairness in linear bandits with biased feedback [62.25313751895011]
線形帯域フィードバックによる逐次意思決定の問題点について検討する。
その結果,不偏フィードバック下で得られたdT 1/2 log(T) の後悔率よりも最悪の後悔率が高いことがわかった。
興味深いことに、ギャップ依存率によって、問題はバイアスのないものほど難しくない非自明なインスタンスの存在が明らかになる。
論文 参考訳(メタデータ) (2022-03-18T08:03:20Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Predictive Bandits [68.8204255655161]
我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
論文 参考訳(メタデータ) (2020-04-02T17:12:33Z) - Bandits with Knapsacks beyond the Worst-Case [87.54497614804409]
最悪の場合の視点を超えた3つの結果を提示します。
第一に、対数的、インスタンス依存的後悔率の完全な特徴を与える上限と下限を提供する。
第二に、与えられたラウンドにおけるアルゴリズムの性能を追跡するBwKの「簡単な後悔」を考察し、数ラウンドを除いては小さくないことを示す。
論文 参考訳(メタデータ) (2020-02-01T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。