論文の概要: Data-Driven Online Model Selection With Regret Guarantees
- arxiv url: http://arxiv.org/abs/2306.02869v3
- Date: Tue, 23 Jan 2024 13:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 12:51:15.231745
- Title: Data-Driven Online Model Selection With Regret Guarantees
- Title(参考訳): 後悔を保証したデータ駆動オンラインモデル選択
- Authors: Aldo Pacchiano, Christoph Dann, Claudio Gentile
- Abstract要約: 帯域フィードバックのある環境における逐次意思決定のためのモデル選択について検討する。
モデル選択は, 後悔バランスによって行われるが, 最近の文献とは異なり, 基本学習者に関する事前知識を前提としない。
我々は、このより野心的な後悔の概念で機能する2つのモデル選択アルゴリズムを設計し、後悔バランスによるモデル選択保証の証明に加えて、疑わしい後悔境界ではなく、実際の後悔を扱うという魅力的な実践的メリットを実験的に実証する。
- 参考スコア(独自算出の注目度): 45.199330926090624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider model selection for sequential decision making in stochastic
environments with bandit feedback, where a meta-learner has at its disposal a
pool of base learners, and decides on the fly which action to take based on the
policies recommended by each base learner. Model selection is performed by
regret balancing but, unlike the recent literature on this subject, we do not
assume any prior knowledge about the base learners like candidate regret
guarantees; instead, we uncover these quantities in a data-driven manner. The
meta-learner is therefore able to leverage the realized regret incurred by each
base learner for the learning environment at hand (as opposed to the expected
regret), and single out the best such regret. We design two model selection
algorithms operating with this more ambitious notion of regret and, besides
proving model selection guarantees via regret balancing, we experimentally
demonstrate the compelling practical benefits of dealing with actual regrets
instead of candidate regret bounds.
- Abstract(参考訳): メタリアナーがベース学習者のプールを処分し,各ベース学習者が推奨する方針に基づいてどの行動を取るか判断する,バンディットフィードバックを伴う確率的環境における逐次意思決定のためのモデル選択を検討する。
モデル選択は, 後悔のバランスによって行われるが, この主題に関する最近の文献とは違って, 基本学習者に関する事前知識を, 候補者の後悔の保証のように想定しない。
したがって、メタ学習者は、(期待された後悔とは対照的に)学習環境において各基礎学習者が生み出した達成された後悔を活用でき、最高の後悔を一つにまとめることができる。
2つのモデル選択アルゴリズムをこの野心的な後悔の概念で設計し,モデル選択の保証を後悔のバランスで証明すると同時に,実際の後悔を扱うという説得力のある実用的メリットを実験的に実証する。
関連論文リスト
- Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Best of Both Worlds Model Selection [39.211071446838474]
ネストされた政策クラスが存在する場合のバンディットシナリオにおけるモデル選択の問題について検討する。
私たちのアプローチでは、各ベース学習者は、保持するかもしれないし持たないかもしれない後悔の候補を伴わなければならない。
これらは、(線形)バンディットのシナリオでモデル選択を行いながら、(確率的および敵対的)双方の保証を最大限に達成する最初の理論的結果である。
論文 参考訳(メタデータ) (2022-06-29T20:57:30Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective [7.318831153179727]
文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
論文 参考訳(メタデータ) (2021-06-11T16:08:03Z) - Targeted Active Learning for Bayesian Decision-Making [15.491942513739676]
サンプルを逐次取得する際には,学習と意思決定を分離することが準最適である。
本稿では,ダウン・ザ・ライン決定問題を考慮に入れた,新たなアクティブな学習戦略を提案する。
具体的には、最適決定の後続分布における期待情報ゲインを最大化する、新しい能動的学習基準を導入する。
論文 参考訳(メタデータ) (2021-06-08T09:05:43Z) - Understanding Prediction Discrepancies in Machine Learning Classifiers [4.8793230799789535]
本論文では,同じデータ上で訓練されたベストパフォーマンスモデル群の予測誤差を解析する。
モデルに依存しないアルゴリズムであるDIGは、局所的に矛盾を捉えて説明するために提案される。
論文 参考訳(メタデータ) (2021-04-12T13:42:50Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Regret Balancing for Bandit and RL Model Selection [31.38702762525305]
効果的なモデル選択戦略は,オンライン手法で最高の学習アルゴリズムに適応することを示す。
ほぼ最適に近いモデル選択戦略が、暗黙的に後悔のバランスをとることを示す。
論文 参考訳(メタデータ) (2020-06-09T20:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。