論文の概要: Bandits with adversarial scaling
- arxiv url: http://arxiv.org/abs/2003.02287v2
- Date: Sat, 29 Aug 2020 03:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 12:50:35.090720
- Title: Bandits with adversarial scaling
- Title(参考訳): 逆のスケーリングを持つバンド
- Authors: Thodoris Lykouris, Vahab Mirrokni, Renato Paes Leme
- Abstract要約: 報酬がaと逆成分を持つマルチアームバンディットモデルである「逆スケーリング」について検討する。
動作除去法とミラー降下法を併用した2つのアルゴリズムが,対向スケーリングに頑健であることを示す。
- 参考スコア(独自算出の注目度): 20.958959332978726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study "adversarial scaling", a multi-armed bandit model where rewards have
a stochastic and an adversarial component. Our model captures display
advertising where the "click-through-rate" can be decomposed to a (fixed across
time) arm-quality component and a non-stochastic user-relevance component
(fixed across arms). Despite the relative stochasticity of our model, we
demonstrate two settings where most bandit algorithms suffer. On the positive
side, we show that two algorithms, one from the action elimination and one from
the mirror descent family are adaptive enough to be robust to adversarial
scaling. Our results shed light on the robustness of adaptive parameter
selection in stochastic bandits, which may be of independent interest.
- Abstract(参考訳): 本研究では,報酬が確率的かつ敵対的要素を持つマルチアームバンディットモデルである"adversarial scaling"について検討する。
本モデルでは,「クリックスルーレート」をアーム品質成分と非ステヒスティックなユーザ関連成分(腕に固定)に分解可能なディスプレイ広告をキャプチャする。
我々のモデルの相対確率性にもかかわらず、ほとんどのバンディットアルゴリズムが苦しむ2つの設定を示す。
正の面では、アクション除去とミラー降下系からの2つのアルゴリズムは、逆スケーリングに頑健であるのに十分な適応性を示す。
本研究は,確率的バンドイットにおける適応パラメータ選択のロバスト性に光を当てた。
関連論文リスト
- Competing Bandits in Decentralized Large Contextual Matching Markets [13.313881962771777]
我々は、需要側(プレイヤーまたはエージェント)が大きな供給側(腕)と競合する二面的マッチング市場における分散学習を研究する。
提案アルゴリズムは,腕の数によらず,インスタンス依存の対数的後悔を実現する。
論文 参考訳(メタデータ) (2024-11-18T18:08:05Z) - Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Reproducible Bandits [95.8830340560603]
バンディット環境におけるポリシーは、2つの異なる実行において全く同じ腕列を高い確率で引き出すと再現可能と呼ばれる。
再現可能なポリシが存在するだけでなく、時間的地平線の観点から、ほぼ同じ(再現不可能な)後悔境界を達成することを示す。
以上の結果から,無作為化が探索・探索トレードオフに不可欠であるにもかかわらず,同一の腕を2回の異なるラウンドで引き抜いて最適なバランスをとれることが示唆された。
論文 参考訳(メタデータ) (2022-10-04T20:36:45Z) - The Countable-armed Bandit with Vanishing Arms [8.099977107670918]
我々は、数え切れないほど多くの腕を有限個の「型」に分割したバンドイット問題を考える。
非定常分布は、腕の個体群における各腕型の相対的な存在量を支配しており、いわゆる「腕貯水池」である。
論文 参考訳(メタデータ) (2021-10-23T02:47:55Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Variable Selection via Thompson Sampling [3.017637529264628]
我々はトンプソン可変選択(TVS)と呼ばれる解釈可能な機械学習のためのフレームワークを提案する。
TVSは、線形となるための基盤モデルに依存しない、解釈可能な機械学習のためのフレームワークである。
シミュレーションデータと実データの両方に非常に強い経験的性能を示す。
論文 参考訳(メタデータ) (2020-07-01T02:22:53Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。