論文の概要: Best of Both Worlds Model Selection
- arxiv url: http://arxiv.org/abs/2206.14912v1
- Date: Wed, 29 Jun 2022 20:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:11:13.186430
- Title: Best of Both Worlds Model Selection
- Title(参考訳): 両世界のモデル選択のベスト
- Authors: Aldo Pacchiano, Christoph Dann, Claudio Gentile
- Abstract要約: ネストされた政策クラスが存在する場合のバンディットシナリオにおけるモデル選択の問題について検討する。
私たちのアプローチでは、各ベース学習者は、保持するかもしれないし持たないかもしれない後悔の候補を伴わなければならない。
これらは、(線形)バンディットのシナリオでモデル選択を行いながら、(確率的および敵対的)双方の保証を最大限に達成する最初の理論的結果である。
- 参考スコア(独自算出の注目度): 39.211071446838474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of model selection in bandit scenarios in the presence
of nested policy classes, with the goal of obtaining simultaneous adversarial
and stochastic ("best of both worlds") high-probability regret guarantees. Our
approach requires that each base learner comes with a candidate regret bound
that may or may not hold, while our meta algorithm plays each base learner
according to a schedule that keeps the base learner's candidate regret bounds
balanced until they are detected to violate their guarantees. We develop
careful mis-specification tests specifically designed to blend the above model
selection criterion with the ability to leverage the (potentially benign)
nature of the environment. We recover the model selection guarantees of the
CORRAL algorithm for adversarial environments, but with the additional benefit
of achieving high probability regret bounds, specifically in the case of nested
adversarial linear bandits. More importantly, our model selection results also
hold simultaneously in stochastic environments under gap assumptions. These are
the first theoretical results that achieve best of both world (stochastic and
adversarial) guarantees while performing model selection in (linear) bandit
scenarios.
- Abstract(参考訳): ネストされた政策クラスの存在下でのバンディットシナリオにおけるモデル選択の問題について,高い確率的後悔保証を同時に得ることを目的として検討した。
提案手法では,各基本学習者に対して,保持可能あるいは保持しない可能性のある候補後悔バウンドが付与され,一方,メタアルゴリズムでは,基本学習者の候補後悔バウンドが保証に違反することが検出されるまでバランスを保ち続けるスケジュールに従って各ベース学習者を決定する。
上記のモデル選択基準と環境の(潜在的に良質な)性質を併用する能力とを特に用いた、慎重なミス特定テストを開発する。
我々は,CORRALアルゴリズムのモデル選択保証を逆向き環境に適用するが,特にネストした逆向き線形帯域の場合において,高い確率の後悔境界を達成するという付加的な利点がある。
さらに重要なことに、モデル選択の結果はギャップ仮定の下で確率環境でも同時に保持される。
これらは、(線形)バンディットのシナリオでモデル選択を行いながら、(確率的および敵対的)双方の保証を最大限に達成する最初の理論的結果である。
関連論文リスト
- Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文 参考訳(メタデータ) (2021-12-23T02:31:50Z) - Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective [7.318831153179727]
文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
論文 参考訳(メタデータ) (2021-06-11T16:08:03Z) - Fair Classification with Adversarial Perturbations [35.030329189029246]
本研究は,学習サンプルの任意の$eta$-fractionを選択でき,保護属性を任意に摂動することができるような,万能な逆境の存在下での公平な分類について検討する。
我々の主な貢献は、精度と公正性に関する証明可能な保証を伴うこの逆条件で公平な分類法を学ぶための最適化フレームワークである。
我々は、自然な仮説クラスに対する我々のフレームワークの保証のほぼ正当性を証明している: どのアルゴリズムもはるかに精度が良く、より良い公正性を持つアルゴリズムは、より低い精度でなければならない。
論文 参考訳(メタデータ) (2021-06-10T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。