論文の概要: Unifying Clustered and Non-stationary Bandits
- arxiv url: http://arxiv.org/abs/2009.02463v1
- Date: Sat, 5 Sep 2020 04:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 20:33:53.750018
- Title: Unifying Clustered and Non-stationary Bandits
- Title(参考訳): クラスターと非定常バンディットの統一
- Authors: Chuanhao Li, Qingyun Wu and Hongning Wang
- Abstract要約: 非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。
本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。
厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
- 参考スコア(独自算出の注目度): 50.12992652938055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-stationary bandits and online clustering of bandits lift the restrictive
assumptions in contextual bandits and provide solutions to many important
real-world scenarios. Though the essence in solving these two problems overlaps
considerably, they have been studied independently. In this paper, we connect
these two strands of bandit research under the notion of test of homogeneity,
which seamlessly addresses change detection for non-stationary bandit and
cluster identification for online clustering of bandit in a unified solution
framework. Rigorous regret analysis and extensive empirical evaluations
demonstrate the value of our proposed solution, especially its flexibility in
handling various environment assumptions.
- Abstract(参考訳): 非定常バンディットとオンラインバンディットクラスタリングは、コンテキストバンディットの制限的な仮定を解除し、多くの重要な現実世界シナリオに対するソリューションを提供する。
これら2つの問題を解決する本質はかなり重なるが、それぞれ独立して研究されている。
本稿では,この2つのバンドイット研究を,非定常バンドイットに対する変化検出とクラスタ識別を,統合されたソリューション・フレームワークでシームレスに処理する均質性テストという概念の下で結合する。
厳密な後悔分析と広範な経験的評価は,提案するソリューション,特に様々な環境仮定を扱う際の柔軟性の価値を示している。
関連論文リスト
- Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。
既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。
クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:38:29Z) - Selective Reviews of Bandit Problems in AI via a Statistical View [1.9458156037869137]
強化学習(Reinforcement Learning, RL)は、人工知能の分野で広く研究されている分野であり、エージェントと環境との相互作用を通じて意思決定を教えることに焦点を当てている。
鍵となるサブセットには、マルチアーム・バンディット(MAB)と連続アーム・バンディット(SCAB)の問題が含まれ、不確実性の下でのシーケンシャルな意思決定をモデル化する。
本稿では,バンドイット問題の基本モデルと仮定を概説し,集中不平等やミニマックス後悔境界といった非漸近的理論ツールを探求し,探索-探索トレードオフを管理するための頻繁なアルゴリズムとベイズ的アルゴリズムを比較した。
論文 参考訳(メタデータ) (2024-12-03T08:28:47Z) - Finite-Sample and Distribution-Free Fair Classification: Optimal Trade-off Between Excess Risk and Fairness, and the Cost of Group-Blindness [14.421493372559762]
グループフェアネス制約下の二項分類におけるアルゴリズムフェアネスとグループブレンドネスの強制効果を定量化する。
制御された過剰リスクを伴う分布自由かつ有限サンプルフェアネスを保証するフェア分類のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:04:17Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - A Definition of Non-Stationary Bandits [12.643821787548154]
非定常帯域を定常帯域と一貫した区別が可能な非定常帯域の形式的定義を同定する。
この定義は定常的・非定常的の両方と同じ帯域幅を明確に分類できることを示す。
これらの問題を解消する非定常的包帯の形式的定義を導入する。
論文 参考訳(メタデータ) (2023-02-23T17:55:11Z) - On the pitfalls of entropy-based uncertainty for multi-class
semi-supervised segmentation [8.464487190628395]
半教師付き学習は、限られた監督で深層モデルを訓練するための魅力的な戦略として現れてきた。
本稿では,この戦略がマルチクラスコンテキストにおける最適以下の結果をもたらすことを実証する。
本稿では,クラス間の重なり合いを考慮に入れた分散距離に基づいて,マルチクラス設定における不確実性を計算する方法を提案する。
論文 参考訳(メタデータ) (2022-03-07T18:35:17Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Consensus-Guided Correspondence Denoising [67.35345850146393]
本稿では,地域間コンセンサス学習フレームワークと対応関係を異色化し,対応関係をロバストに識別する。
ローカル地域からグローバル地域への動的グラフから推定されるコンセンサススコアに基づいて,信頼度の高い候補を初期マッチングから蒸留する新しい「プルーニング」ブロックを導入した。
本手法は、堅牢なラインフィッティング、ワイドベースライン画像マッチング、画像ローカリゼーションベンチマークを顕著なマージンで上回る。
論文 参考訳(メタデータ) (2021-01-03T09:10:00Z) - Towards Robust Fine-grained Recognition by Maximal Separation of
Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。
注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文 参考訳(メタデータ) (2020-06-10T18:34:45Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。