論文の概要: Efficient Optimal PAC Learning
- arxiv url: http://arxiv.org/abs/2502.03620v2
- Date: Fri, 07 Feb 2025 10:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 11:34:24.828203
- Title: Efficient Optimal PAC Learning
- Title(参考訳): 効率的なPAC学習
- Authors: Mikael Møller Høgsgaard,
- Abstract要約: 経験的リスク最小化アルゴリズムによって引き起こされる計算コストの面で異なるトレードオフを提供する最適PAC学習者の存在を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advances in the binary classification setting by Hanneke [2016b] and Larsen [2023] have resulted in optimal PAC learners. These learners leverage, respectively, a clever deterministic subsampling scheme and the classic heuristic of bagging Breiman [1996]. Both optimal PAC learners use, as a subroutine, the natural algorithm of empirical risk minimization. Consequently, the computational cost of these optimal PAC learners is tied to that of the empirical risk minimizer algorithm. In this work, we seek to provide an alternative perspective on the computational cost imposed by the link to the empirical risk minimizer algorithm. To this end, we show the existence of an optimal PAC learner, which offers a different tradeoff in terms of the computational cost induced by the empirical risk minimizer.
- Abstract(参考訳): Hanneke [2016b] と Larsen [2023] によるバイナリ分類の最近の進歩は、最適なPAC学習者を生み出している。
これらの学習者は、それぞれ巧妙な決定論的サブサンプリングスキームと、ブレイマンを袋詰めする古典的ヒューリスティック(1996年)を活用している。
どちらのPAC学習者も、経験的リスク最小化の自然なアルゴリズムであるサブルーチンとして使っている。
したがって、これらの最適PAC学習者の計算コストは、経験的リスク最小化アルゴリズムの計算コストと結びついている。
本研究では,経験的リスク最小化アルゴリズムのリンクによって課される計算コストについて,別の視点で検討する。
この目的のために、実験的リスク最小化器によって引き起こされる計算コストの観点から異なるトレードオフを提供する最適PAC学習器の存在を示す。
関連論文リスト
- An Actor-Critic Algorithm with Function Approximation for Risk Sensitive Cost Markov Decision Processes [5.945710235932345]
我々はマルコフ決定プロセスの指数的コストを伴うリスク感受性コスト基準を考察し、この設定でモデルフリーポリシーアルゴリズムを開発する。
本稿では,最近の論文における他のアルゴリズムよりもアルゴリズムの性能が優れていることを示す数値実験の結果を示す。
論文 参考訳(メタデータ) (2025-02-17T09:44:23Z) - Optimal Rates for Robust Stochastic Convex Optimization [12.620782629498812]
我々は,$epsilon$-contaminationモデルの下で,極小最適過大リスクを実現するアルゴリズムを開発した。
我々のアルゴリズムは制限的な仮定を必要とせず、非滑らかだがリプシッツ人口減少関数を扱える。
論文 参考訳(メタデータ) (2024-12-15T00:52:08Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Learning-to-Optimize with PAC-Bayesian Guarantees: Theoretical Considerations and Practical Implementation [4.239829789304117]
最適学習の設定にはPAC-ベイズ理論を用いる。
証明可能な一般化保証付き最適化アルゴリズムを学習する最初のフレームワークを提示する。
学習アルゴリズムは、(決定論的)最悪のケース分析から得られた関連アルゴリズムを確実に上回ります。
論文 参考訳(メタデータ) (2024-04-04T08:24:57Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - PAC-Bayesian Learning of Optimization Algorithms [6.624726878647541]
PAC-Bayes理論を学習最適化の設定に適用する。
証明可能な一般化保証(PAC-bounds)と高収束確率と高収束速度との間の明示的なトレードオフを持つ最適化アルゴリズムを学習する。
この結果は指数族に基づく一般の非有界損失関数に対してPAC-Bayes境界に依存する。
論文 参考訳(メタデータ) (2022-10-20T09:16:36Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。
混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-06-19T22:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。