論文の概要: COMPASS-Hedge: Learning Safely Without Knowing the World
- arxiv url: http://arxiv.org/abs/2603.22348v2
- Date: Fri, 27 Mar 2026 16:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.128392
- Title: COMPASS-Hedge: Learning Safely Without Knowing the World
- Title(参考訳): CompASS-Hedge: 世界を知ることなく安全に学ぶ
- Authors: Ting Hu, Luanda Cai, Manolis Vlatakis,
- Abstract要約: オンライン学習アルゴリズムは、しばしば基本的なトリレンマに直面している: 敵と敵の設定間の後悔の保証をバランスさせ、固定されたコンパレータに対してベースライン安全性を提供する。
本アルゴリズムは, 敵環境における最小最適後悔 (i) 攻撃環境におけるインスタンス最適後悔 (i) 指定された基本方針に対する$tildemathcalO(1)$後悔 (対数的要因まで) を同時に達成する最初の完全情報手法である。
- 参考スコア(独自算出の注目度): 1.2835635784207415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online learning algorithms often faces a fundamental trilemma: balancing regret guarantees between adversarial and stochastic settings and providing baseline safety against a fixed comparator. While existing methods excel in one or two of these regimes, they typically fail to unify all three without sacrificing optimal rates or requiring oracle access to problem-dependent parameters. In this work, we bridge this gap by introducing COMPASS-Hedge. Our algorithm is the first full-information method to simultaneously achieve: i) Minimax-optimal regret in adversarial environments; ii) Instance-optimal, gap-dependent regret in stochastic environments; and iii) $\tilde{\mathcal{O}}(1)$ regret relative to a designated baseline policy, up to logarithmic factors. Crucially, COMPASS-Hedge is parameter-free and requires no prior knowledge of the environment's nature or the magnitude of the stochastic sub optimality gaps. Our approach hinges on a novel integration of adaptive pseudo-regret scaling and phase-based aggression, coupled with a comparator-aware mixing strategy. To the best of our knowledge, this provides the first "best-of-three-world" guarantee in the full-information setting, establishing that baseline safety does not have to come at the cost of worst-case robustness or stochastic efficiency.
- Abstract(参考訳): オンライン学習アルゴリズムは、しばしば基本的なトリレンマに直面している: 敵と確率的な設定間の後悔の保証をバランスさせ、固定されたコンパレータに対してベースラインの安全性を提供する。
既存の手法はこれらのレギュレーションの1つか2つで排他的だが、最適なレートを犠牲にしたり、問題に依存したパラメータへのオラクルアクセスを必要とすることなく、3つすべてを統一することができないのが普通である。
本稿では,CompASS-Hedgeを導入することで,このギャップを埋める。
我々のアルゴリズムは, 同時に実現した最初の全情報手法である。
一 敵国の環境における最小限の後悔
二 確率的環境における最適、ギャップ依存の後悔
iii) $\tilde{\mathcal{O}}(1)$ regret to a designated baseline policy, up to logarithmic factors.
重要なことに、CompASS-Hedgeはパラメータフリーであり、環境の性質や確率的部分最適性ギャップの大きさについて事前の知識を必要としない。
提案手法は,適応的擬似回帰スケーリングと位相ベース攻撃の新たな統合と,コンパレータ・アウェア・ミキシング戦略の併用によるものである。
私たちの知る限りでは、これは完全な情報設定における最初の「3つの世界のベスト」保証であり、ベースラインの安全性は最悪のケースの堅牢性や確率的効率の犠牲にならずに済むことを保証する。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。
まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。
第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。
第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文 参考訳(メタデータ) (2024-03-19T17:50:32Z) - Real-Time Adaptive Safety-Critical Control with Gaussian Processes in
High-Order Uncertain Models [14.790031018404942]
本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。
まず,差分スパースGPアルゴリズムを改良するために,まず忘れ係数を積分する。
第2フェーズでは,高次制御バリア関数に基づく安全フィルタを提案する。
論文 参考訳(メタデータ) (2024-02-29T08:25:32Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - Perfectly Secure Steganography Using Minimum Entropy Coupling [60.154855689780796]
カチン1998のステガノグラフィー情報理論モデルでは, ステガノグラフィーの術式は完全に安全であることが示されている。
また, 完全セキュアな手順の中で, 最小エントロピー結合によって誘導される場合に限, 情報スループットが最大になることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:40:07Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Regret minimization in stochastic non-convex learning via a
proximal-gradient approach [80.59047515124198]
機械学習やオペレーションの応用によって動機づけられた私たちは、オンラインで制約された問題を最小化するために、一階のオラクルフィードバックを後悔しています。
我々は、近位複雑性低減技術を保証する新しいプロキシグレードを開発する。
論文 参考訳(メタデータ) (2020-10-13T09:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。