論文の概要: DAL: A Practical Prior-Free Black-Box Framework for Non-Stationary Bandit Environments
- arxiv url: http://arxiv.org/abs/2501.19401v3
- Date: Fri, 20 Jun 2025 17:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.376322
- Title: DAL: A Practical Prior-Free Black-Box Framework for Non-Stationary Bandit Environments
- Title(参考訳): DAL:非定常帯域環境のための実用的プリフリーブラックボックスフレームワーク
- Authors: Argyrios Gerogiannis, Yu-Han Huang, Subhonmesh Bose, Venugopal V. Veeravalli,
- Abstract要約: 非定常的包帯の問題に対して,検出強化学習(DAL)と呼ばれる実用的なブラックボックスフレームワークを導入する。
DALはモジュラーであり、任意の固定帯域アルゴリズムを入力として受け入れ、変更検出器で拡張する。
- 参考スコア(独自算出の注目度): 16.606885016888306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a practical, black-box framework termed Detection Augmenting Learning (DAL) for the problem of non-stationary bandits without prior knowledge of the underlying non-stationarity. DAL is modular, accepting any stationary bandit algorithm as input and augmenting it with a change detector. Our approach is applicable to all common parametric and non-parametric bandit variants. Extensive experimentation demonstrates that DAL consistently surpasses current state-of-the-art methods across diverse non-stationary scenarios, including synthetic benchmarks and real-world datasets, underscoring its versatility and scalability. We provide theoretical insights into DAL's strong empirical performance on piecewise stationary and drift settings, complemented by thorough experimental validation.
- Abstract(参考訳): 本研究では,非定常帯域の問題に対して,基礎となる非定常帯域に関する事前知識のない,実用的なブラックボックスフレームワークである検出強化学習(DAL)を導入する。
DALはモジュラーであり、任意の固定帯域アルゴリズムを入力として受け入れ、変更検出器で拡張する。
我々のアプローチは、すべてのパラメトリックおよび非パラメトリックバンディット変種に適用できる。
大規模な実験により、DALは、合成ベンチマークや実世界のデータセットなど、さまざまな非定常シナリオにわたる現在の最先端メソッドを一貫して超越し、その汎用性とスケーラビリティを実証している。
我々は,DALの定常およびドリフト設定における強い経験的性能に関する理論的知見を,徹底的な実験検証によって補完する。
関連論文リスト
- Training-free Quantum-Inspired Image Edge Extraction Method [4.8188571652305185]
トレーニング不要で量子にインスパイアされたエッジ検出モデルを提案する。
提案手法は,古典的なソベルエッジ検出,シュリンガー波動方程式の洗練,ハイブリッドフレームワークを統合する。
トレーニングの必要性をなくすことで、モデルは軽量で多様なアプリケーションに適用できます。
論文 参考訳(メタデータ) (2025-01-31T07:24:38Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - OPONeRF: One-Point-One NeRF for Robust Neural Rendering [70.56874833759241]
そこで我々は,ロバストなシーンレンダリングのためのOne-Point-One NeRF (OPONeRF) フレームワークを提案する。
物体の動き、光の変化、データ汚染といった小さなが予測不可能な摂動は、現実の3Dシーンに広く存在している。
実験の結果,OPONeRFは各種評価指標において最先端のNeRFよりも優れていた。
論文 参考訳(メタデータ) (2024-09-30T07:49:30Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Adaptive Regret for Bandits Made Possible: Two Queries Suffice [26.769372199571002]
我々は、強い適応的後悔という厳密な概念の下で、クエリと後悔の最適包帯アルゴリズムを与える。
驚いたことに、1ラウンドあたり2つのクエリで$tildeO(sqrtn|I|)$ Adaptive Bandit Learner(StABL)を達成できる。
論文 参考訳(メタデータ) (2024-01-17T15:32:04Z) - Robust-GBDT: GBDT with Nonconvex Loss for Tabular Classification in the Presence of Label Noise and Class Imbalance [0.40964539027092917]
Robust-GBDTは、ラベルノイズに対する非損失関数のレジリエンスを組み合わせた画期的なアプローチである。
特にノイズや不均衡なデータセットでは、機能を大幅に向上します。
それは、さまざまな現実世界のアプリケーションにまたがる、堅牢で正確な分類の新しい時代への道を開くものだ。
論文 参考訳(メタデータ) (2023-10-08T08:28:40Z) - Few-shot Fine-tuning is All You Need for Source-free Domain Adaptation [2.837894907597713]
非教師なしドメイン適応(SFUDA)の非教師なしドメイン適応(UDA)に対する実用性について検討する。
SFUDAは、実世界のアプリケーションにおける実用性を制限する未ラベルのターゲットデータに依存していることを示す。
SFUDAの限界を回避するために,ラベル付きデータによる事前学習モデルの微調整を行うことが,実用的で信頼性の高い手法であることを示す。
論文 参考訳(メタデータ) (2023-04-03T08:24:40Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Open-Set Semi-Supervised Object Detection [43.464223594166654]
近年,Semi-Supervised Object Detection (SSOD) の開発が進められている。
我々は、より実用的で難しい問題、OSSOD(Open-Set Semi-Supervised Object Detection)を考える。
提案フレームワークはセマンティック拡張問題に効果的に対処し,OSSODベンチマークにおける一貫した改善を示す。
論文 参考訳(メタデータ) (2022-08-29T17:04:30Z) - Non-Stationary Bandits under Recharging Payoffs: Improved Planning with
Sublinear Regret [34.44347218903429]
マルチアームバンディット設定は、最近非定常状態において研究されている。
各アクションの平均的なペイオフは、前回のプレイ以来のラウンド数の増加しない機能である。
我々は,我々のアルゴリズムがサブ線形後悔を伴う帯域幅アルゴリズムにどのように変換されるかを示す。
論文 参考訳(メタデータ) (2022-05-29T23:55:36Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Non-stationary Reinforcement Learning without Prior Knowledge: An
Optimal Black-box Approach [42.021871809877595]
近静止環境における最適な後悔を伴う強化学習アルゴリズムを、非定常環境における最適な動的後悔を伴う別のアルゴリズムに変換するブラックボックス還元を提案する。
提案手法は, 線形包帯, エピソードMDP, 無限水平MDPの技量を有意に改善することを示す。
論文 参考訳(メタデータ) (2021-02-10T12:43:31Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic
Gradient Descent and Thompson Sampling [83.48992319018147]
プレイヤーが過去の観測結果に基づいて逐次意思決定を行い、累積報酬を最大化する文脈的帯域幅問題を考える。
この問題を解決する自然な方法は、ステップごとの時間とメモリの複雑さを一定に抑えるために、オンライン勾配降下(SGD)を適用することである。
本研究では,オンラインSGDが一般化線形帯域問題に適用可能であることを示す。
過去の情報を活用するためにシングルステップのSGD更新を利用するSGD-TSアルゴリズムは、全時間複雑度で$tildeO(sqrtT)$ regretを達成する。
論文 参考訳(メタデータ) (2020-06-07T01:12:39Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。