論文の概要: SCaLE: Switching Cost aware Learning and Exploration
- arxiv url: http://arxiv.org/abs/2601.09042v1
- Date: Wed, 14 Jan 2026 00:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.203434
- Title: SCaLE: Switching Cost aware Learning and Exploration
- Title(参考訳): SCaLE: コストを意識した学習と探索を切り替える
- Authors: Neelkamal Bhuyan, Debankur Mukherjee, Adam Wierman,
- Abstract要約: 本研究は,オンライン凸最適化における計量移動コストの基本的な問題に対処する。
非有界な環境の一般クラスに対して、分布非依存の線形動的後悔を実現する最初のアルゴリズム SCaLE を提供する。
本稿では,固有値エラーによる後悔と固有ベイシス摂動による後悔を別々に定量化する新しいスペクトル後悔分析法を提案する。
- 参考スコア(独自算出の注目度): 20.483938439210522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the fundamental problem of unbounded metric movement costs in bandit online convex optimization, by considering high-dimensional dynamic quadratic hitting costs and $\ell_2$-norm switching costs in a noisy bandit feedback model. For a general class of stochastic environments, we provide the first algorithm SCaLE that provably achieves a distribution-agnostic sub-linear dynamic regret, without the knowledge of hitting cost structure. En-route, we present a novel spectral regret analysis that separately quantifies eigenvalue-error driven regret and eigenbasis-perturbation driven regret. Extensive numerical experiments, against online-learning baselines, corroborate our claims, and highlight statistical consistency of our algorithm.
- Abstract(参考訳): 本研究は,高次元動的2次打込みコストと騒音を伴うバンディットフィードバックモデルにおける$\ell_2$-normスイッチングコストを考慮し,バンディットオンライン凸最適化における非有界メートル運動コストの基本的な問題に対処する。
確率的環境の一般的なクラスに対して、コスト構造を打つことなく分布非依存の線形動的後悔を確実に達成する最初のアルゴリズム SCaLE を提供する。
本稿では,固有値エラーによる後悔と固有ベイシス摂動による後悔を別々に定量化する新しいスペクトル後悔分析法を提案する。
オンライン学習ベースラインに対する大規模な数値実験は、私たちの主張を裏付け、アルゴリズムの統計的一貫性を強調します。
関連論文リスト
- Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Dynamic Pricing in the Linear Valuation Model using Shape Constraints [21.319339643047826]
線形評価モデルにおける検閲データに対する動的価格設定に対する形状制約付きアプローチを提案する。
本手法は, 文献における既往の方法と比較して, 経験的後悔の度合いを低くする。
論文 参考訳(メタデータ) (2025-02-09T04:58:33Z) - Efficient Methods for Non-stationary Online Learning [63.268670895111654]
動的後悔と適応的後悔を最適化する効率的な方法を提案する。
提案アルゴリズムでは,各ラウンドで1つの勾配クエリと1つの関数評価しか必要としない。
また、さらに強力な測度、すなわち「内部的動的後悔」を研究し、ラウンド当たりの射影数を$O(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Rate-Optimal Online Convex Optimization in Adaptive Linear Control [0.0]
コストの逆変化による未知凸線形系の制御について考察する。
最適線形後角関数を実現するための最初の計算式を提示する。
論文 参考訳(メタデータ) (2022-06-03T07:32:11Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Smoothed Online Convex Optimization Based on Discounted-Normal-Predictor [68.17855675511602]
円滑なオンライン凸最適化(SOCO)のためのオンライン予測戦略について検討する。
提案アルゴリズムは,各区間の切替コストで適応的後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2022-05-02T08:48:22Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Online Policy Gradient for Model Free Learning of Linear Quadratic
Regulators with $\sqrt{T}$ Regret [0.0]
同様の後悔の保証を実現する最初のモデルフリーアルゴリズムを提案する。
本手法は,効率的な政策勾配スキームと,政策空間における探索コストの新しい,より厳密な分析に依拠する。
論文 参考訳(メタデータ) (2021-02-25T00:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。