論文の概要: Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2107.11419v1
- Date: Fri, 23 Jul 2021 19:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 13:51:58.165226
- Title: Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits
- Title(参考訳): グローバル非定常多腕バンディットの有限時間解析
- Authors: Junpei Komiyama, Edouard Fouch\'e, Junya Honda
- Abstract要約: 本稿では,データストリームコミュニティの適応ウィンドウ技術を活用した帯域幅アルゴリズムのクラスである適応リセットバンディットを提案する。
ADRバンドは, 急激な変化や大域的な変化が協調的に起こると, ほぼ最適性能を示すことを示す。
既存の非定常帯域幅アルゴリズムとは異なり、ADRバンド幅は、グローバルな変化を伴う非定常環境だけでなく、静止環境においても最適な性能を持つ。
- 参考スコア(独自算出の注目度): 18.97156441929289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider nonstationary multi-armed bandit problems where the model
parameters of the arms change over time. We introduce the adaptive resetting
bandit (ADR-bandit), which is a class of bandit algorithms that leverages
adaptive windowing techniques from the data stream community. We first provide
new guarantees on the quality of estimators resulting from adaptive windowing
techniques, which are of independent interest in the data mining community.
Furthermore, we conduct a finite-time analysis of ADR-bandit in two typical
environments: an abrupt environment where changes occur instantaneously and a
gradual environment where changes occur progressively. We demonstrate that
ADR-bandit has nearly optimal performance when the abrupt or global changes
occur in a coordinated manner that we call global changes. We demonstrate that
forced exploration is unnecessary when we restrict the interest to the global
changes. Unlike the existing nonstationary bandit algorithms, ADR-bandit has
optimal performance in stationary environments as well as nonstationary
environments with global changes. Our experiments show that the proposed
algorithms outperform the existing approaches in synthetic and real-world
environments.
- Abstract(参考訳): アームのモデルパラメータが時間とともに変化する非定常なマルチアームバンディット問題を考える。
本稿では,データストリームコミュニティの適応ウィンドウ技術を活用した帯域幅アルゴリズムのクラスであるAdaptive Resetting Bandit(ADR-bandit)を紹介する。
まず、データマイニングコミュニティに独立した関心を持つ、適応型ウィンドウ技術による推定器の品質に関する新たな保証を提供する。
さらに,ADR帯域の有限時間解析を2つの典型的な環境 – 変化が瞬時に発生する急激な環境と,変化が徐々に起こる段階的環境 – で実施する。
adr-banditは、突然あるいは大域的な変化が、地球規模の変化と呼ばれる協調的な方法で起こる場合に、ほぼ最適なパフォーマンスを示す。
グローバルな変化に対する関心を制限する場合、強制探査は不要であることを示す。
既存の非定常バンディットアルゴリズムとは異なり、adr-banditは静止環境だけでなく、グローバルに変化のある非定常環境においても最適な性能を持つ。
実験の結果,提案アルゴリズムは,合成環境や実環境において,既存の手法よりも優れていることがわかった。
関連論文リスト
- Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - A Behavior-Aware Approach for Deep Reinforcement Learning in Non-stationary Environments without Known Change Points [30.077746056549678]
本研究では,環境変化検出と行動適応を融合させる革新的なフレームワークである行動認識検出適応(BADA)を紹介する。
我々の手法の背後にある重要なインスピレーションは、ポリシーが環境の変化に異なるグローバルな振る舞いを示すことである。
一連の実験の結果は、現在のアルゴリズムと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-23T06:17:26Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Implicit neural representation for change detection [15.741202788959075]
点雲の変化を検出する最も一般的なアプローチは、教師付き手法に基づいている。
Inlicit Neural Representation (INR) for continuous shape reconstruction と Gaussian Mixture Model for categorising change の2つのコンポーネントからなる教師なしアプローチを提案する。
本手法を都市スプロールのためのシミュレーションLiDAR点雲からなるベンチマークデータセットに適用する。
論文 参考訳(メタデータ) (2023-07-28T09:26:00Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Local Differential Privacy for Sequential Decision Making in a Changing
Environment [0.6526824510982799]
我々は、変化する環境において、シーケンシャルな意思決定シナリオにおいて高いユーティリティを提供しながら、プライバシ保護の問題を研究する。
高いユーティリティを提供しながら、所望の局所差分プライバシーレベルを保証できる、証明可能な最適メカニズムを提案する。
論文 参考訳(メタデータ) (2023-01-02T08:49:00Z) - Privacy Preserving Recalibration under Domain Shift [119.21243107946555]
本稿では,差分プライバシー制約下での校正問題の性質を抽象化する枠組みを提案する。
また、新しいリカレーションアルゴリズム、精度温度スケーリングを設計し、プライベートデータセットの事前処理より優れています。
論文 参考訳(メタデータ) (2020-08-21T18:43:37Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。