論文の概要: Adversarial Bandit Optimization with Globally Bounded Perturbations to Linear Losses
- arxiv url: http://arxiv.org/abs/2603.26066v1
- Date: Fri, 27 Mar 2026 04:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.352029
- Title: Adversarial Bandit Optimization with Globally Bounded Perturbations to Linear Losses
- Title(参考訳): 線形損失に対するグローバル境界摂動を用いた逆帯域最適化
- Authors: Zhuoyu Cheng, Kohei Hatano, Eiji Takimoto,
- Abstract要約: 損失関数が非滑らかである可能性のある,逆帯域最適化問題のクラスについて検討する。
分析の特別な場合として,古典的帯域最適化の高確率化を図った。
- 参考スコア(独自算出の注目度): 0.6321283533425183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a class of adversarial bandit optimization problems in which the loss functions may be non-convex and non-smooth. In each round, the learner observes a loss that consists of an underlying linear component together with an additional perturbation applied after the learner selects an action. The perturbations are measured relative to the linear losses and are constrained by a global budget that bounds their cumulative magnitude over time. Under this model, we establish both expected and high-probability regret guarantees. As a special case of our analysis, we recover an improved high-probability regret bound for classical bandit linear optimization, which corresponds to the setting without perturbations. We further complement our upper bounds by proving a lower bound on the expected regret.
- Abstract(参考訳): 本研究では,損失関数が非凸かつ非平滑であるような,逆帯域最適化問題のクラスについて検討する。
各ラウンドにおいて、学習者は、基礎となる線形成分からなる損失と、学習者がアクションを選択した後に適用される追加の摂動を観察する。
摂動は線形損失に対して測定され、その累積規模を時間とともに制限する世界予算によって制限される。
このモデルでは、期待と高確率の後悔の保証の両方を確立する。
解析の特別な場合として、摂動のない設定に対応する古典的帯域線形最適化のために、改良された高確率後悔境界を回復する。
我々は、予想される後悔の低い境界を証明することで、上界をさらに補完する。
関連論文リスト
- The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - Adversarial bandit optimization for approximately linear functions [0.6321283533425183]
非滑らかかつ非滑らかな関数に対する帯域最適化問題を考える。
それぞれのトライアルでは、損失関数は線形関数の和であり、プレイヤーの選択を観察した後に選択された小さいが任意の摂動である。
その結果、最適化のために高確率の後悔を省くことが示唆された。
論文 参考訳(メタデータ) (2025-05-27T05:22:01Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Refined Risk Bounds for Unbounded Losses via Transductive Priors [67.12679195076387]
線形回帰の逐次変分を2乗損失、ヒンジ損失の分類問題、ロジスティック回帰で再検討する。
我々の鍵となるツールは、慎重に選択された導出先を持つ指数重み付けアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2024-10-29T00:01:04Z) - LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。