論文の概要: Data Selection for ERMs
- arxiv url: http://arxiv.org/abs/2504.14572v2
- Date: Fri, 25 Apr 2025 22:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.704041
- Title: Data Selection for ERMs
- Title(参考訳): ERMのデータ選択
- Authors: Steve Hanneke, Shay Moran, Alexander Shlimovich, Amir Yehudayoff,
- Abstract要約: 我々は、$mathcalA$が、少なくとも$nll N$のデータポイントで訓練された時に、いかにうまく機能するかを研究する。
結果は,平均推定,線形分類,線形回帰に対する最適データ選択境界を含む。
- 参考スコア(独自算出の注目度): 67.57726352698933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning theory has traditionally followed a model-centric approach, focusing on designing optimal algorithms for a fixed natural learning task (e.g., linear classification or regression). In this paper, we adopt a complementary data-centric perspective, whereby we fix a natural learning rule and focus on optimizing the training data. Specifically, we study the following question: given a learning rule $\mathcal{A}$ and a data selection budget $n$, how well can $\mathcal{A}$ perform when trained on at most $n$ data points selected from a population of $N$ points? We investigate when it is possible to select $n \ll N$ points and achieve performance comparable to training on the entire population. We address this question across a variety of empirical risk minimizers. Our results include optimal data-selection bounds for mean estimation, linear classification, and linear regression. Additionally, we establish two general results: a taxonomy of error rates in binary classification and in stochastic convex optimization. Finally, we propose several open questions and directions for future research.
- Abstract(参考訳): 学習理論は伝統的にモデル中心のアプローチに従っており、固定された自然学習タスク(例えば線形分類や回帰)に最適なアルゴリズムを設計することに焦点を当てている。
本稿では,自然学習規則を修正し,学習データの最適化に焦点をあてる,補完的なデータ中心の視点を採用する。
学習ルール $\mathcal{A}$ とデータ選択予算 $n$ が与えられたら、$\mathcal{A}$ は、少なくとも$n$のデータポイントで、N$ の個体群の中から選択されたデータポイントでトレーニングされた時に、どれくらいの確率で実行できますか?
我々は,n \ll N$ 点を選択することができ,集団全体のトレーニングに匹敵する性能を達成することができるかを検討する。
この問題は、さまざまな経験的リスク最小化要因にまたがって対処する。
結果は,平均推定,線形分類,線形回帰に対する最適データ選択境界を含む。
さらに、二項分類における誤り率の分類法と確率凸最適化の2つの一般的な結果を確立する。
最後に,今後の研究に向けて,いくつかのオープンな質問と方向性を提案する。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Optimal Bias-Correction and Valid Inference in High-Dimensional Ridge Regression: A Closed-Form Solution [0.0]
寸法$p$がサンプルサイズ$n$より小さい場合、バイアスを効果的に補正するための反復戦略を導入する。
p>n$の場合、提案した非バイアス推定器の残余バイアスが到達不能であるようなバイアスを最適に緩和する。
本手法は,様々な分野にわたるリッジ回帰推論におけるバイアス問題に対する変換解を提供する。
論文 参考訳(メタデータ) (2024-05-01T10:05:19Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - (Machine) Learning to Improve the Empirical Performance of Discrete
Algorithms [0.0]
我々は、人間の専門家の意見なしに、与えられたデータに対して最適なアルゴリズムを選択するために機械学習手法を訓練する。
我々のフレームワークは、固定されたデフォルトのピボットルールを使用するだけで全体のパフォーマンスを改善する様々なピボットルールを推奨しています。
最短経路問題に対して、訓練されたモデルは大幅に改善され、我々の選択は最適な選択から平均.7パーセント離れている。
論文 参考訳(メタデータ) (2021-09-29T08:33:09Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。