論文の概要: Robust Empirical Risk Minimization with Tolerance
- arxiv url: http://arxiv.org/abs/2210.00635v1
- Date: Sun, 2 Oct 2022 21:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:07:30.263295
- Title: Robust Empirical Risk Minimization with Tolerance
- Title(参考訳): 寛容さを伴うロバストな経験的リスク最小化
- Authors: Robi Bhattacharjee, Max Hopkins, Akash Kumar, Hantao Yu, Kamalika
Chaudhuri
- Abstract要約: 我々は、(ロバストな)$textitempirical risk minimization$(RERM)の基本パラダイムについて研究する。
自然寛容なRERMは、$mathbbRd$を超える$gamma$-tolerantな学習VCクラスに十分であることを示す。
- 参考スコア(独自算出の注目度): 24.434720137937756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing simple, sample-efficient learning algorithms for robust
classification is a pressing issue in today's tech-dominated world, and current
theoretical techniques requiring exponential sample complexity and complicated
improper learning rules fall far from answering the need. In this work we study
the fundamental paradigm of (robust) $\textit{empirical risk minimization}$
(RERM), a simple process in which the learner outputs any hypothesis minimizing
its training error. RERM famously fails to robustly learn VC classes (Montasser
et al., 2019a), a bound we show extends even to `nice' settings such as
(bounded) halfspaces. As such, we study a recent relaxation of the robust model
called $\textit{tolerant}$ robust learning (Ashtiani et al., 2022) where the
output classifier is compared to the best achievable error over slightly larger
perturbation sets. We show that under geometric niceness conditions, a natural
tolerant variant of RERM is indeed sufficient for $\gamma$-tolerant robust
learning VC classes over $\mathbb{R}^d$, and requires only $\tilde{O}\left(
\frac{VC(H)d\log \frac{D}{\gamma\delta}}{\epsilon^2}\right)$ samples for
robustness regions of (maximum) diameter $D$.
- Abstract(参考訳): 堅牢な分類のための単純でサンプル効率のよい学習アルゴリズムを開発することは、今日の技術支配の世界では重要な問題であり、現在の理論では、指数的なサンプルの複雑さと複雑な不適切な学習規則を必要とする。
本研究では,学習者が学習誤差を最小化する仮説を出力する単純なプロセスである, (robust) $\textit{empirical risk minimization}$ (rerm) の基本パラダイムについて検討する。
RERMはVCクラス(Montasser et al., 2019a)をしっかり学習できないことで有名です。
そこで本研究では,比較的大きな摂動集合に対して,出力分類器が達成可能な最良誤差と比較される,$\textit{ tolerance}$ robust learning (ashtiani et al., 2022) と呼ばれるロバストモデルの最近の緩和について検討する。
幾何学的優良性条件下では、RERMの自然寛容変種は、$\gamma$-tolerant robust learning VC class over $\mathbb{R}^d$に対して確かに十分であり、$\tilde{O}\left( \frac{VC(H)d\log \frac{D}{\gamma\delta}}{\epsilon^2}\right)$D$の頑健性領域のサンプルのみを必要とする。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Sharper Model-free Reinforcement Learning for Average-reward Markov
Decision Processes [21.77276136591518]
我々はマルコフ決定過程(MDPs)のための証明可能なモデルフリー強化学習(RL)アルゴリズムを開発した。
シミュレータ設定では,$widetildeO left(fracSAmathrmsp(h*)epsilon2+fracS2Amathrmsp(h*)epsilon2right)$サンプルを用いて,$epsilon$-optimal Policyを求める。
論文 参考訳(メタデータ) (2023-06-28T17:43:19Z) - A Finite Sample Complexity Bound for Distributionally Robust Q-learning [17.96094201655567]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。
ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文 参考訳(メタデータ) (2023-02-26T01:15:32Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。