論文の概要: Online learning with Corrupted context: Corrupted Contextual Bandits
- arxiv url: http://arxiv.org/abs/2006.15194v1
- Date: Fri, 26 Jun 2020 19:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:12:02.837917
- Title: Online learning with Corrupted context: Corrupted Contextual Bandits
- Title(参考訳): 崩壊したコンテキストによるオンライン学習 - 崩壊したコンテキストのバンディット
- Authors: Djallel Bouneffouf
- Abstract要約: 我々は文脈的盗賊問題の新しい変種を考える。
この問題は、臨床試験や広告レコメンデーションなどのオンライン設定によって動機付けられている。
本稿では,従来のマルチアームバンディット機構と標準的なコンテキスト的バンディットアプローチを組み合わせることを提案する。
- 参考スコア(独自算出の注目度): 19.675277307158435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a novel variant of the contextual bandit problem (i.e., the
multi-armed bandit with side-information, or context, available to a
decision-maker) where the context used at each decision may be corrupted
("useless context"). This new problem is motivated by certain on-line settings
including clinical trial and ad recommendation applications. In order to
address the corrupted-context setting,we propose to combine the standard
contextual bandit approach with a classical multi-armed bandit mechanism.
Unlike standard contextual bandit methods, we are able to learn from all
iteration, even those with corrupted context, by improving the computing of the
expectation for each arm. Promising empirical results are obtained on several
real-life datasets.
- Abstract(参考訳): 我々は,コンテキスト・バンディット問題(つまり,サイド・インフォメーションを伴うマルチアーム・バンディット,あるいは意思決定者が利用可能なコンテキスト)の新たな変種を検討し,各決定で使用されるコンテキストを腐敗させる("useless context")。
この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む、特定のオンライン設定によって動機付けられる。
劣化したコンテキスト設定に対処するため,従来のマルチアームバンディット機構と標準コンテキストバンディットアプローチを組み合わせることを提案する。
標準的なコンテキスト帯域幅法とは異なり、各アームに対する期待値の計算を改善することにより、コンテキストが破損した場合でも全てのイテレーションから学習することができる。
いくつかの実生活データセットで実験結果が得られた。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Neural Contextual Bandits for Personalized Recommendation [49.85090929163639]
本チュートリアルでは、パーソナライズされたレコメンデーションのための強力なフレームワークとして、コンテキスト帯について検討する。
我々は、リコメンデーターシステムにおける「マシュー効果」を緩和するために、文脈的盗賊の探索的視点に焦点を当てる。
従来の線形文脈包帯に加えて、我々は神経文脈包帯にも焦点をあてる。
論文 参考訳(メタデータ) (2023-12-21T17:03:26Z) - Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts [31.33919659549256]
本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。
我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。
合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
論文 参考訳(メタデータ) (2023-09-25T06:22:28Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear
Bandit Algorithms [39.70492757288025]
我々は,意思決定者がコンテキストを提供するコンテキスト線形帯域問題に対処する。
文脈問題を線形バンディット問題として解くことができることを示す。
この結果から,文脈的線形包帯に対して$O(dsqrtTlog T)$高確率残差が生じることが示唆された。
論文 参考訳(メタデータ) (2022-11-08T22:18:53Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks [81.13338949407205]
近年の研究では、最適なバンディットアルゴリズムは敵攻撃に対して脆弱であり、攻撃の有無で完全に失敗する可能性があることが示されている。
既存の堅牢なバンディットアルゴリズムは、報酬の攻撃下では、非コンテキスト設定でのみ機能する。
完全適応的かつ全能的な攻撃下での線形文脈帯域設定のための最初の頑健な帯域幅アルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-05T22:20:34Z) - Contextual Bandit with Missing Rewards [27.066965426355257]
文脈に基づく決定に関連付けられた報酬が必ずしも観測されないような、文脈的包帯問題の新しい変種を考察する。
この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む特定のオンライン設定によって動機付けられている。
本稿では,クラスタリングのような教師なし学習機構と,標準的な文脈的帯域幅アプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-07-13T13:29:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。