Fugu-MT 論文翻訳(概要): Unifying Clustered and Non-stationary Bandits

論文の概要: Unifying Clustered and Non-stationary Bandits

arxiv url: http://arxiv.org/abs/2009.02463v1
Date: Sat, 5 Sep 2020 04:58:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-21 20:33:53.750018
Title: Unifying Clustered and Non-stationary Bandits
Title（参考訳）: クラスターと非定常バンディットの統一
Authors: Chuanhao Li, Qingyun Wu and Hongning Wang
Abstract要約: 非定常的盗賊とオンラインの盗賊のクラスタリングは、文脈的盗賊の制約的な仮定を解き放つ。本研究では,非定常帯域に対する変化検出と,オンライン帯域クラスタリングのためのクラスタ識別をシームレスに行う均質性試験を提案する。厳密な後悔分析と広範な経験的評価により,提案手法の価値が示された。
参考スコア（独自算出の注目度）: 50.12992652938055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Non-stationary bandits and online clustering of bandits lift the restrictive assumptions in contextual bandits and provide solutions to many important real-world scenarios. Though the essence in solving these two problems overlaps considerably, they have been studied independently. In this paper, we connect these two strands of bandit research under the notion of test of homogeneity, which seamlessly addresses change detection for non-stationary bandit and cluster identification for online clustering of bandit in a unified solution framework. Rigorous regret analysis and extensive empirical evaluations demonstrate the value of our proposed solution, especially its flexibility in handling various environment assumptions.
Abstract（参考訳）: 非定常バンディットとオンラインバンディットクラスタリングは、コンテキストバンディットの制限的な仮定を解除し、多くの重要な現実世界シナリオに対するソリューションを提供する。これら2つの問題を解決する本質はかなり重なるが、それぞれ独立して研究されている。本稿では,この2つのバンドイット研究を,非定常バンドイットに対する変化検出とクラスタ識別を,統合されたソリューション・フレームワークでシームレスに処理する均質性テストという概念の下で結合する。厳密な後悔分析と広範な経験的評価は,提案するソリューション,特に様々な環境仮定を扱う際の柔軟性の価値を示している。

関連論文リスト

Constrained Pareto Set Identification with Bandit Feedback [10.967572582187014]
意味不明の$Kの武器が与えられた場合、平均が他の腕よりも一様でない腕のセットを特定することが目的である。我々は固定信頼度同定に重点を置いており、レースのようなアルゴリズムを著しく上回るアルゴリズムを導入している。
論文参考訳（メタデータ） (2025-06-09T18:29:28Z)
Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-01T16:38:29Z)
Selective Reviews of Bandit Problems in AI via a Statistical View [1.9458156037869137]
強化学習(Reinforcement Learning, RL)は、人工知能の分野で広く研究されている分野であり、エージェントと環境との相互作用を通じて意思決定を教えることに焦点を当てている。鍵となるサブセットには、マルチアーム・バンディット(MAB)と連続アーム・バンディット(SCAB)の問題が含まれ、不確実性の下でのシーケンシャルな意思決定をモデル化する。本稿では,バンドイット問題の基本モデルと仮定を概説し,集中不平等やミニマックス後悔境界といった非漸近的理論ツールを探求し,探索-探索トレードオフを管理するための頻繁なアルゴリズムとベイズ的アルゴリズムを比較した。
論文参考訳（メタデータ） (2024-12-03T08:28:47Z)
Finite-Sample and Distribution-Free Fair Classification: Optimal Trade-off Between Excess Risk and Fairness, and the Cost of Group-Blindness [14.421493372559762]
グループフェアネス制約下の二項分類におけるアルゴリズムフェアネスとグループブレンドネスの強制効果を定量化する。制御された過剰リスクを伴う分布自由かつ有限サンプルフェアネスを保証するフェア分類のための統一的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-21T20:04:17Z)
A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-20T15:17:31Z)
A Definition of Non-Stationary Bandits [12.643821787548154]
非定常帯域を定常帯域と一貫した区別が可能な非定常帯域の形式的定義を同定する。この定義は定常的・非定常的の両方と同じ帯域幅を明確に分類できることを示す。これらの問題を解消する非定常的包帯の形式的定義を導入する。
論文参考訳（メタデータ） (2023-02-23T17:55:11Z)
On the pitfalls of entropy-based uncertainty for multi-class semi-supervised segmentation [8.464487190628395]
半教師付き学習は、限られた監督で深層モデルを訓練するための魅力的な戦略として現れてきた。本稿では,この戦略がマルチクラスコンテキストにおける最適以下の結果をもたらすことを実証する。本稿では,クラス間の重なり合いを考慮に入れた分散距離に基づいて,マルチクラス設定における不確実性を計算する方法を提案する。
論文参考訳（メタデータ） (2022-03-07T18:35:17Z)
Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文参考訳（メタデータ） (2021-11-17T01:59:15Z)
Statistical Consequences of Dueling Bandits [0.0]
マルチアーマッド・バンディットのフレームワークは、しばしば教育介入を評価するために使われてきた。近年の研究では、学生が嗜好の誘惑を通じて質的なフィードバックを提供する方が有益であることが示されている。我々は,従来の一様サンプリング法とデュエルバンディットアルゴリズムを比較し,デュエルバンディットアルゴリズムが累積後悔最小化時に良好に動作することを示すが,特定の状況下でのType-I誤差率の増大と消費電力の低減につながる。
論文参考訳（メタデータ） (2021-10-16T23:48:43Z)
Consensus-Guided Correspondence Denoising [67.35345850146393]
本稿では,地域間コンセンサス学習フレームワークと対応関係を異色化し,対応関係をロバストに識別する。ローカル地域からグローバル地域への動的グラフから推定されるコンセンサススコアに基づいて,信頼度の高い候補を初期マッチングから蒸留する新しい「プルーニング」ブロックを導入した。本手法は、堅牢なラインフィッティング、ワイドベースライン画像マッチング、画像ローカリゼーションベンチマークを顕著なマージンで上回る。
論文参考訳（メタデータ） (2021-01-03T09:10:00Z)
Contextual Bandit with Missing Rewards [27.066965426355257]
文脈に基づく決定に関連付けられた報酬が必ずしも観測されないような、文脈的包帯問題の新しい変種を考察する。この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む特定のオンライン設定によって動機付けられている。本稿では,クラスタリングのような教師なし学習機構と,標準的な文脈的帯域幅アプローチを組み合わせることを提案する。
論文参考訳（メタデータ） (2020-07-13T13:29:51Z)
Towards Robust Fine-grained Recognition by Maximal Separation of Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文参考訳（メタデータ） (2020-06-10T18:34:45Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。