論文の概要: Adversarial bandit optimization for approximately linear functions
- arxiv url: http://arxiv.org/abs/2505.20734v2
- Date: Sun, 01 Jun 2025 06:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.009085
- Title: Adversarial bandit optimization for approximately linear functions
- Title(参考訳): 近似線形関数に対する逆帯域最適化
- Authors: Zhuoyu Cheng, Kohei Hatano, Eiji Takimoto,
- Abstract要約: 非滑らかかつ非滑らかな関数に対する帯域最適化問題を考える。
それぞれのトライアルでは、損失関数は線形関数の和であり、プレイヤーの選択を観察した後に選択された小さいが任意の摂動である。
その結果、最適化のために高確率の後悔を省くことが示唆された。
- 参考スコア(独自算出の注目度): 0.589889361990138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a bandit optimization problem for nonconvex and non-smooth functions, where in each trial the loss function is the sum of a linear function and a small but arbitrary perturbation chosen after observing the player's choice. We give both expected and high probability regret bounds for the problem. Our result also implies an improved high-probability regret bound for the bandit linear optimization, a special case with no perturbation. We also give a lower bound on the expected regret.
- Abstract(参考訳): 非凸関数と非滑らか関数に対する帯域最適化の問題を考えると、損失関数は各トライアルにおいて、線形関数の和であり、プレイヤーの選択を観察した後に選択される小さいが任意の摂動である。
私たちはその問題に対して、期待と高い確率の両方の後悔の限界を与えます。
また, 摂動を伴わない特別事例として, 帯域線形最適化において, 高確率残差が改善することが示唆された。
私たちはまた、予想される後悔に低い限界を与えます。
関連論文リスト
- Sample Efficient Omniprediction and Downstream Swap Regret for Non-Linear Losses [4.509643050721454]
「決定スワップ後悔」は、下流スワップ後悔と全滅の予測を一般化する。
また、オンライン逆数設定において、任意の多次元リプシッツ損失関数に対してそれを得るアルゴリズムも提供する。
論文 参考訳(メタデータ) (2025-02-18T06:01:52Z) - Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret [10.700891331004799]
本稿では,非損失関数を用いた分散オンライン帯域最適化問題について検討する。
プレイヤーは敵を選択し、そのプレイヤーに任意の非線形損失関数を割り当てる。
予想されるアルゴリズムの後悔は、2点偏差を用いた既存のアルゴリズムに匹敵する。
論文 参考訳(メタデータ) (2024-09-24T02:37:33Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - A conversion theorem and minimax optimality for continuum contextual bandits [70.71582850199871]
本研究では,学習者が側情報ベクトルを逐次受信し,凸集合内の行動を選択する,文脈連続帯域幅問題について検討する。
目標は、受信したコンテキストのすべての基盤関数を最小化することです。
サブ線形の静的な後悔を達成するアルゴリズムを拡張して、サブ線形の文脈的後悔を実現することができることを示す。
論文 参考訳(メタデータ) (2024-06-09T10:12:08Z) - No-Regret Linear Bandits beyond Realizability [34.06789803260447]
報酬関数が線形でない場合の線形帯域について検討する。
既存の作業は、最良の線形近似のsup-norm誤差を測定する均一な不特定パラメータ$epsilon$に依存している。
ここでは、各入力においてx$の近似誤差のみを必要とし、x$の準最適差に比例する、より自然なミス種別モデルを記述する。
論文 参考訳(メタデータ) (2023-02-26T07:15:31Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Optimal Rates for Random Order Online Optimization [60.011653053877126]
敵が損失関数を選択できるカテットガルバー2020onlineについて検討するが、一様にランダムな順序で提示される。
2020onlineアルゴリズムが最適境界を達成し,安定性を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T09:48:46Z) - Optimal Stochastic Nonconvex Optimization with Bandit Feedback [45.675080529219365]
一定の平滑さと部分レベル集合仮定の下で非コスト関数に対する連続武装バンディット問題を解析する。
次に、性能を大幅に向上させる適応分割法を提案する。
論文 参考訳(メタデータ) (2021-03-30T05:21:12Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。