論文の概要: Unifying Clustered and Non-stationary Bandits
- arxiv url: http://arxiv.org/abs/2009.02463v1
- Date: Sat, 5 Sep 2020 04:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 20:33:53.750018
- Title: Unifying Clustered and Non-stationary Bandits
- Title(参考訳): クラスターと非定常バンディットの統一
- Authors: Chuanhao Li, Qingyun Wu and Hongning Wang
- Abstract要約: 非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。
本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。
厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
- 参考スコア(独自算出の注目度): 50.12992652938055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-stationary bandits and online clustering of bandits lift the restrictive
assumptions in contextual bandits and provide solutions to many important
real-world scenarios. Though the essence in solving these two problems overlaps
considerably, they have been studied independently. In this paper, we connect
these two strands of bandit research under the notion of test of homogeneity,
which seamlessly addresses change detection for non-stationary bandit and
cluster identification for online clustering of bandit in a unified solution
framework. Rigorous regret analysis and extensive empirical evaluations
demonstrate the value of our proposed solution, especially its flexibility in
handling various environment assumptions.
- Abstract(参考訳): 非定常バンディットとオンラインバンディットクラスタリングは、コンテキストバンディットの制限的な仮定を解除し、多くの重要な現実世界シナリオに対するソリューションを提供する。
これら2つの問題を解決する本質はかなり重なるが、それぞれ独立して研究されている。
本稿では,この2つのバンドイット研究を,非定常バンドイットに対する変化検出とクラスタ識別を,統合されたソリューション・フレームワークでシームレスに処理する均質性テストという概念の下で結合する。
厳密な後悔分析と広範な経験的評価は,提案するソリューション,特に様々な環境仮定を扱う際の柔軟性の価値を示している。
関連論文リスト
- Finite-Sample and Distribution-Free Fair Classification: Optimal Trade-off Between Excess Risk and Fairness, and the Cost of Group-Blindness [14.421493372559762]
グループフェアネス制約下の二項分類におけるアルゴリズムフェアネスとグループブレンドネスの強制効果を定量化する。
制御された過剰リスクを伴う分布自由かつ有限サンプルフェアネスを保証するフェア分類のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:04:17Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - A Definition of Non-Stationary Bandits [12.643821787548154]
非定常帯域を定常帯域と一貫した区別が可能な非定常帯域の形式的定義を同定する。
この定義は定常的・非定常的の両方と同じ帯域幅を明確に分類できることを示す。
これらの問題を解消する非定常的包帯の形式的定義を導入する。
論文 参考訳(メタデータ) (2023-02-23T17:55:11Z) - On the pitfalls of entropy-based uncertainty for multi-class
semi-supervised segmentation [8.464487190628395]
半教師付き学習は、限られた監督で深層モデルを訓練するための魅力的な戦略として現れてきた。
本稿では,この戦略がマルチクラスコンテキストにおける最適以下の結果をもたらすことを実証する。
本稿では,クラス間の重なり合いを考慮に入れた分散距離に基づいて,マルチクラス設定における不確実性を計算する方法を提案する。
論文 参考訳(メタデータ) (2022-03-07T18:35:17Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Statistical Consequences of Dueling Bandits [0.0]
マルチアーマッド・バンディットのフレームワークは、しばしば教育介入を評価するために使われてきた。
近年の研究では、学生が嗜好の誘惑を通じて質的なフィードバックを提供する方が有益であることが示されている。
我々は,従来の一様サンプリング法とデュエルバンディットアルゴリズムを比較し,デュエルバンディットアルゴリズムが累積後悔最小化時に良好に動作することを示すが,特定の状況下でのType-I誤差率の増大と消費電力の低減につながる。
論文 参考訳(メタデータ) (2021-10-16T23:48:43Z) - Consensus-Guided Correspondence Denoising [67.35345850146393]
本稿では,地域間コンセンサス学習フレームワークと対応関係を異色化し,対応関係をロバストに識別する。
ローカル地域からグローバル地域への動的グラフから推定されるコンセンサススコアに基づいて,信頼度の高い候補を初期マッチングから蒸留する新しい「プルーニング」ブロックを導入した。
本手法は、堅牢なラインフィッティング、ワイドベースライン画像マッチング、画像ローカリゼーションベンチマークを顕著なマージンで上回る。
論文 参考訳(メタデータ) (2021-01-03T09:10:00Z) - Contextual Bandit with Missing Rewards [27.066965426355257]
文脈に基づく決定に関連付けられた報酬が必ずしも観測されないような、文脈的包帯問題の新しい変種を考察する。
この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む特定のオンライン設定によって動機付けられている。
本稿では,クラスタリングのような教師なし学習機構と,標準的な文脈的帯域幅アプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-07-13T13:29:51Z) - Towards Robust Fine-grained Recognition by Maximal Separation of
Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。
注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文 参考訳(メタデータ) (2020-06-10T18:34:45Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。