論文の概要: Data-Driven Online Model Selection With Regret Guarantees
- arxiv url: http://arxiv.org/abs/2306.02869v3
- Date: Tue, 23 Jan 2024 13:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 12:51:15.231745
- Title: Data-Driven Online Model Selection With Regret Guarantees
- Title(参考訳): 後悔を保証したデータ駆動オンラインモデル選択
- Authors: Aldo Pacchiano, Christoph Dann, Claudio Gentile
- Abstract要約: 帯域フィードバックのある環境における逐次意思決定のためのモデル選択について検討する。
モデル選択は, 後悔バランスによって行われるが, 最近の文献とは異なり, 基本学習者に関する事前知識を前提としない。
我々は、このより野心的な後悔の概念で機能する2つのモデル選択アルゴリズムを設計し、後悔バランスによるモデル選択保証の証明に加えて、疑わしい後悔境界ではなく、実際の後悔を扱うという魅力的な実践的メリットを実験的に実証する。
- 参考スコア(独自算出の注目度): 45.199330926090624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider model selection for sequential decision making in stochastic
environments with bandit feedback, where a meta-learner has at its disposal a
pool of base learners, and decides on the fly which action to take based on the
policies recommended by each base learner. Model selection is performed by
regret balancing but, unlike the recent literature on this subject, we do not
assume any prior knowledge about the base learners like candidate regret
guarantees; instead, we uncover these quantities in a data-driven manner. The
meta-learner is therefore able to leverage the realized regret incurred by each
base learner for the learning environment at hand (as opposed to the expected
regret), and single out the best such regret. We design two model selection
algorithms operating with this more ambitious notion of regret and, besides
proving model selection guarantees via regret balancing, we experimentally
demonstrate the compelling practical benefits of dealing with actual regrets
instead of candidate regret bounds.
- Abstract(参考訳): メタリアナーがベース学習者のプールを処分し,各ベース学習者が推奨する方針に基づいてどの行動を取るか判断する,バンディットフィードバックを伴う確率的環境における逐次意思決定のためのモデル選択を検討する。
モデル選択は, 後悔のバランスによって行われるが, この主題に関する最近の文献とは違って, 基本学習者に関する事前知識を, 候補者の後悔の保証のように想定しない。
したがって、メタ学習者は、(期待された後悔とは対照的に)学習環境において各基礎学習者が生み出した達成された後悔を活用でき、最高の後悔を一つにまとめることができる。
2つのモデル選択アルゴリズムをこの野心的な後悔の概念で設計し,モデル選択の保証を後悔のバランスで証明すると同時に,実際の後悔を扱うという説得力のある実用的メリットを実験的に実証する。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Asymptotically Optimal Regret for Black-Box Predict-then-Optimize [7.412445894287709]
我々は,特別な構造を欠いた新たなブラックボックス予測最適化問題と,その行動から得られる報酬のみを観察する方法について検討した。
本稿では,経験的ソフトレグレット(ESR, Empirical Soft Regret)と呼ばれる新しい損失関数を提案する。
また、私たちのアプローチは、ニュースレコメンデーションやパーソナライズされた医療における現実の意思決定問題において、最先端のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-12T04:46:23Z) - Robust Losses for Decision-Focused Learning [2.9652474178611405]
決定にフォーカスした学習は、最適下決定を行うことで後悔を最小限に抑えるために予測モデルを訓練することを目的としている。
経験的最適決定は期待された最適決定と大きく異なるため、経験的後悔は非効果的な代理となり得る。
より強固に予測された後悔を近似する3つの新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-10-06T15:45:10Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Best of Both Worlds Model Selection [39.211071446838474]
ネストされた政策クラスが存在する場合のバンディットシナリオにおけるモデル選択の問題について検討する。
私たちのアプローチでは、各ベース学習者は、保持するかもしれないし持たないかもしれない後悔の候補を伴わなければならない。
これらは、(線形)バンディットのシナリオでモデル選択を行いながら、(確率的および敵対的)双方の保証を最大限に達成する最初の理論的結果である。
論文 参考訳(メタデータ) (2022-06-29T20:57:30Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Understanding Prediction Discrepancies in Machine Learning Classifiers [4.940323406667406]
本稿では,同一データ上で訓練された最高の性能モデル群における予測誤差を分析することを提案する。
モデルに依存しないアルゴリズムであるDIGは,局所的に不一致を捉え,説明するために提案される。
論文 参考訳(メタデータ) (2021-04-12T13:42:50Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Regret Balancing for Bandit and RL Model Selection [31.38702762525305]
効果的なモデル選択戦略は,オンライン手法で最高の学習アルゴリズムに適応することを示す。
ほぼ最適に近いモデル選択戦略が、暗黙的に後悔のバランスをとることを示す。
論文 参考訳(メタデータ) (2020-06-09T20:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。