論文の概要: Bandits in Flux: Adversarial Constraints in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2601.19867v1
- Date: Tue, 27 Jan 2026 18:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.433096
- Title: Bandits in Flux: Adversarial Constraints in Dynamic Environments
- Title(参考訳): フラックスの帯域:動的環境における逆制約
- Authors: Tareq Si Salem,
- Abstract要約: 最適勾配推定器と効果的な制約処理を組み込むことで,オンラインミラー降下を拡張できる原始双対アルゴリズムを提案する。
提案アルゴリズムは, 後悔と制約違反の両面から, 最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 2.368995563245609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the challenging problem of adversarial multi-armed bandits operating under time-varying constraints, a scenario motivated by numerous real-world applications. To address this complex setting, we propose a novel primal-dual algorithm that extends online mirror descent through the incorporation of suitable gradient estimators and effective constraint handling. We provide theoretical guarantees establishing sublinear dynamic regret and sublinear constraint violation for our proposed policy. Our algorithm achieves state-of-the-art performance in terms of both regret and constraint violation. Empirical evaluations demonstrate the superiority of our approach.
- Abstract(参考訳): 実世界の多くの応用に動機づけられたシナリオである、時間的制約の下で動作している敵のマルチアームバンディットの難題について検討する。
この複雑な設定に対処するために,適切な勾配推定器と効果的な制約処理を組み込むことにより,オンラインミラー降下を拡大する新しい原始双対アルゴリズムを提案する。
提案した方針に対して,線形動的後悔とサブ線形制約違反の確立を理論的に保証する。
提案アルゴリズムは, 後悔と制約違反の両面から, 最先端の性能を実現する。
実証的な評価は、我々のアプローチの優位性を示している。
関連論文リスト
- Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - The Impact of the Geometric Properties of the Constraint Set in Safe
Optimization with Bandit Feedback [5.758073912084366]
我々は,エージェントが逐次行動を選択し,環境からの反応を観察する,帯域幅フィードバックによる安全な最適化問題を考える。
この問題に対するアルゴリズムを提案し,制約セットの幾何学的性質がアルゴリズムの後悔にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-01T15:48:34Z) - Online Nonstochastic Control with Adversarial and Static Constraints [12.2632894803286]
本稿では,オンライン非確率的制御アルゴリズムを提案する。
我々のアルゴリズムは敵の制約に適応し、より少ない累積コストと違反を達成する。
論文 参考訳(メタデータ) (2023-02-05T16:46:12Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。