Fugu-MT 論文翻訳(概要): Non-stationary Bandit Convex Optimization: A Comprehensive Study

論文の概要: Non-stationary Bandit Convex Optimization: A Comprehensive Study

arxiv url: http://arxiv.org/abs/2506.02980v1
Date: Tue, 03 Jun 2025 15:18:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.81141
Title: Non-stationary Bandit Convex Optimization: A Comprehensive Study
Title（参考訳）: 非定常帯域凸最適化に関する総合的研究
Authors: Xiaoqi Liu, Dorian Baudry, Julian Zimmert, Patrick Rebeschini, Arya Akhavan,
Abstract要約: Bandit Convex Optimizationは、シーケンシャルな意思決定問題のクラスである。非定常環境でこの問題を研究する。非定常性の標準的な3つの基準の下で、後悔を最小限に抑えることを目指しています。
参考スコア（独自算出の注目度）: 28.086802754034828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bandit Convex Optimization is a fundamental class of sequential decision-making problems, where the learner selects actions from a continuous domain and observes a loss (but not its gradient) at only one point per round. We study this problem in non-stationary environments, and aim to minimize the regret under three standard measures of non-stationarity: the number of switches $S$ in the comparator sequence, the total variation $\Delta$ of the loss functions, and the path-length $P$ of the comparator sequence. We propose a polynomial-time algorithm, Tilted Exponentially Weighted Average with Sleeping Experts (TEWA-SE), which adapts the sleeping experts framework from online convex optimization to the bandit setting. For strongly convex losses, we prove that TEWA-SE is minimax-optimal with respect to known $S$ and $\Delta$ by establishing matching upper and lower bounds. By equipping TEWA-SE with the Bandit-over-Bandit framework, we extend our analysis to environments with unknown non-stationarity measures. For general convex losses, we introduce a second algorithm, clipped Exploration by Optimization (cExO), based on exponential weights over a discretized action space. While not polynomial-time computable, this method achieves minimax-optimal regret with respect to known $S$ and $\Delta$, and improves on the best existing bounds with respect to $P$.
Abstract（参考訳）: Bandit Convex Optimizationはシーケンシャルな意思決定問題の基本的なクラスであり、学習者は連続したドメインからアクションを選択し、(勾配ではなく)損失を1ラウンド当たり1ポイントで観測する。非定常環境でこの問題を研究し、非定常性の標準的な3つの尺度(コンパレータシーケンスにおけるスイッチ数$S$、損失関数の総変分$\Delta$、コンパレータシーケンスのパス長$P$)で後悔を最小限に抑えることを目的としている。本稿では,オンライン凸最適化から帯域設定への睡眠専門家フレームワークの適用を目的とした多項式時間アルゴリズムTilted Exponentially Weighted Average with Sleeping Experts (TEWA-SE)を提案する。強い凸損失に対しては、TEWA-SE が既知の$S$ と $\Delta$ に対して最小最適であることを証明する。 TEWA-SEにBandit-over-Banditフレームワークを組み込むことで、未知の非定常対策のある環境に解析を拡張する。一般の凸損失に対して、離散化された作用空間上の指数重みに基づく2つ目のアルゴリズムであるExploration by Optimization (cExO)を導入する。多項式時間計算可能ではないが、この手法は既知の$S$と$\Delta$に関して最小最大最適後悔を達成し、$P$に関して最良の既存の境界を改善する。

関連論文リスト

Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文参考訳（メタデータ） (2023-07-17T09:55:35Z)
Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。 DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-05-20T07:54:07Z)
Best-of-Three-Worlds Linear Bandit Algorithm with Variance-Adaptive Regret Bounds [27.92755687977196]
本稿では,2つの階層の環境に適応する線形帯域幅アルゴリズムを提案する。高いレベルでは、提案アルゴリズムは様々な種類の環境に適応する。提案アルゴリズムは、最適動作に対する累積損失のすべてに依存する、データ依存の後悔境界を有する。
論文参考訳（メタデータ） (2023-02-24T00:02:24Z)
Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-21T00:17:24Z)
Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文参考訳（メタデータ） (2021-12-29T02:42:59Z)
Optimal and Efficient Dynamic Regret Algorithms for Non-Stationary Dueling Bandits [27.279654173896372]
我々は,非定常的あるいは時間的に異なる選好の下で,$K$のDueling Banditsにおける空力的後悔の最小化問題について検討した。これは、エージェントが各ラウンドで一対のアイテムを選択し、このペアに対する相対的な二項のウィンロスフィードバックのみを観察するオンライン学習設定である。
論文参考訳（メタデータ） (2021-11-06T16:46:55Z)
Non-stationary Reinforcement Learning without Prior Knowledge: An Optimal Black-box Approach [42.021871809877595]
近静止環境における最適な後悔を伴う強化学習アルゴリズムを、非定常環境における最適な動的後悔を伴う別のアルゴリズムに変換するブラックボックス還元を提案する。提案手法は, 線形包帯, エピソードMDP, 無限水平MDPの技量を有意に改善することを示す。
論文参考訳（メタデータ） (2021-02-10T12:43:31Z)
Lazy OCO: Online Convex Optimization on a Switching Budget [34.936641201844054]
我々は、オンライン凸最適化の変形について研究し、プレイヤーは、T$ラウンドを通して、最大$S$で決定を切り替えることを許されている。離散的な決定セットの事前の作業や、より最近の連続的な設定では、適応的な逆数でのみ、同様の問題が解決されている。
論文参考訳（メタデータ） (2021-02-07T14:47:19Z)
Dynamic Regret of Convex and Smooth Functions [93.71361250701075]
非定常環境におけるオンライン凸最適化について検討する。パフォーマンス指標として動的後悔を選択します。本研究では, 滑らかさを活かして, 動的後悔をさらに高めることが可能であることを示す。
論文参考訳（メタデータ） (2020-07-07T14:10:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。