論文の概要: A Survey of Learning Curves with Bad Behavior: or How More Data Need Not
Lead to Better Performance
- arxiv url: http://arxiv.org/abs/2211.14061v1
- Date: Fri, 25 Nov 2022 12:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:54:23.440067
- Title: A Survey of Learning Curves with Bad Behavior: or How More Data Need Not
Lead to Better Performance
- Title(参考訳): 振る舞いの悪い学習曲線の調査:または、データが増えてパフォーマンスが向上しないか
- Authors: Marco Loog and Tom Viering
- Abstract要約: 学習者の一般化性能をトレーニングセットサイズと比較すると、いわゆる学習曲線が得られる。
学習曲線の概念を(理想的に)正確にし、上記の曲線の使用法を簡潔に議論する。
この調査の焦点の大部分は、より多くのデータが必ずしもより良い一般化性能をもたらすとは限らないことを示す学習曲線に焦点を当てている。
- 参考スコア(独自算出の注目度): 15.236871820889345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plotting a learner's generalization performance against the training set size
results in a so-called learning curve. This tool, providing insight in the
behavior of the learner, is also practically valuable for model selection,
predicting the effect of more training data, and reducing the computational
complexity of training. We set out to make the (ideal) learning curve concept
precise and briefly discuss the aforementioned usages of such curves. The
larger part of this survey's focus, however, is on learning curves that show
that more data does not necessarily leads to better generalization performance.
A result that seems surprising to many researchers in the field of artificial
intelligence. We point out the significance of these findings and conclude our
survey with an overview and discussion of open problems in this area that
warrant further theoretical and empirical investigation.
- Abstract(参考訳): 学習者の一般化性能をトレーニングセットサイズと比較すると、いわゆる学習曲線が得られる。
このツールは、学習者の行動に関する洞察を提供するものであり、モデル選択、より多くのトレーニングデータの効果の予測、トレーニングの計算複雑性の低減にも有用である。
そこで我々は,学習曲線の概念を(理想的に)正確にし,上記の曲線の使用法を簡潔に議論した。
しかし、この調査の焦点の大きい部分は学習曲線であり、より多くのデータが必ずしも一般化性能の向上につながるとは限らないことを示している。
人工知能の分野で多くの研究者にとって驚くべき結果だ。
本研究は,本研究の意義を指摘し,今後の理論的・実証的調査を前提とした,この分野におけるオープン問題の概観と議論で結論づける。
関連論文リスト
- Continual Learning on a Data Diet [3.73232466691291]
連続学習(CL)メソッドは通常、利用可能なすべてのデータから学習する。
データセット内のすべてのデータポイントが同等のポテンシャルを持つわけではない。
この格差は、サンプルの品質と量の両方がモデルの一般化性と効率に直接影響を及ぼすので、性能に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-10-23T09:42:17Z) - Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - An Expert's Guide to Training Physics-informed Neural Networks [5.198985210238479]
物理インフォームドニューラルネットワーク(PINN)はディープラーニングフレームワークとして普及している。
PINNは観測データと偏微分方程式(PDE)の制約をシームレスに合成することができる。
PINNのトレーニング効率と全体的な精度を大幅に向上させる一連のベストプラクティスを提案する。
論文 参考訳(メタデータ) (2023-08-16T16:19:25Z) - Estimation of Predictive Performance in High-Dimensional Data Settings
using Learning Curves [0.0]
Learn2Evaluateは、サンプルサイズの関数として試験性能を表す滑らかな単調曲線を組み込むことにより、学習曲線に基づいて評価する。
Learn2Evaluateの利点はシミュレーション研究とオミクスデータへの応用によって説明される。
論文 参考訳(メタデータ) (2022-06-08T11:48:01Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - The Shape of Learning Curves: a Review [14.764764847928259]
本稿では,この用語の起源を振り返り,学習曲線の形式的定義を提供し,その推定などの基礎を概説する。
電力法や指数の形状を持つよく行動する曲線をサポートする経験的および理論的証拠について議論する。
学習曲線の学習曲線の例に特に注意を払っており、トレーニングデータが増えると学習成績が悪化する。
論文 参考訳(メタデータ) (2021-03-19T17:56:33Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。