論文の概要: How Important is the Train-Validation Split in Meta-Learning?
- arxiv url: http://arxiv.org/abs/2010.05843v2
- Date: Tue, 9 Feb 2021 21:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:04:46.764780
- Title: How Important is the Train-Validation Split in Meta-Learning?
- Title(参考訳): メタラーニングにおいて,列車評価はどの程度重要か?
- Authors: Yu Bai, Minshuo Chen, Pan Zhou, Tuo Zhao, Jason D. Lee, Sham Kakade,
Huan Wang, Caiming Xiong
- Abstract要約: メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。
有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。
そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
- 参考スコア(独自算出の注目度): 155.5088631672781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-learning aims to perform fast adaptation on a new task through learning
a "prior" from multiple existing tasks. A common practice in meta-learning is
to perform a train-validation split (\emph{train-val method}) where the prior
adapts to the task on one split of the data, and the resulting predictor is
evaluated on another split. Despite its prevalence, the importance of the
train-validation split is not well understood either in theory or in practice,
particularly in comparison to the more direct \emph{train-train method}, which
uses all the per-task data for both training and evaluation.
We provide a detailed theoretical study on whether and when the
train-validation split is helpful in the linear centroid meta-learning problem.
In the agnostic case, we show that the expected loss of the train-val method is
minimized at the optimal prior for meta testing, and this is not the case for
the train-train method in general without structural assumptions on the data.
In contrast, in the realizable case where the data are generated from linear
models, we show that both the train-val and train-train losses are minimized at
the optimal prior in expectation. Further, perhaps surprisingly, our main
result shows that the train-train method achieves a \emph{strictly better}
excess loss in this realizable case, even when the regularization parameter and
split ratio are optimally tuned for both methods. Our results highlight that
sample splitting may not always be preferable, especially when the data is
realizable by the model. We validate our theories by experimentally showing
that the train-train method can indeed outperform the train-val method, on both
simulations and real meta-learning tasks.
- Abstract(参考訳): メタラーニングは、既存の複数のタスクから"優先"を学習することで、新しいタスクに素早く適応することを目指している。
メタラーニングにおける一般的な実践は、前者がデータの1つの分割でタスクに適応し、結果の予測器が別の分割で評価される列車評価分割(\emph{train-val method})を行うことである。
その普及にもかかわらず、列車評価の分割の重要性は理論上も実際にもよく理解されておらず、特に訓練と評価の両方にタスク毎のデータを使用するより直接的な \emph{train-train method} と比較してもよく理解されている。
線形センタロイドメタラーニング問題において,列車評価分割が有用かどうかについて,詳細な理論的検討を行った。
不可知論のケースでは、メタテストの最適事前に列車弁法の期待損失を最小限に抑えることが示されており、一般にはデータの構造的な仮定なしに列車弁証法ではそうではない。
対照的に、線形モデルからデータを生成するような実現可能な場合において、列車と列車の損失は、期待の最適事前において最小となる。
さらに,本手法の主な結果は,両手法において正則化パラメータと分割比が最適に調整された場合でも,この実現可能な場合において,列車列車の過大な損失が達成されることを示した。
その結果、特にモデルによってデータが実現可能である場合には、サンプル分割が必ずしも望ましいとは限らないことがわかった。
シミュレーションと実メタラーニングの両タスクにおいて,列車列法が実際に列車列法より優れていることを示すことによって,我々の理論を検証する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。
外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。
このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文 参考訳(メタデータ) (2024-03-06T05:13:23Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - A Representation Learning Perspective on the Importance of
Train-Validation Splitting in Meta-Learning [14.720411598827365]
各タスクからのデータを、メタトレーニング中にトレインとバリデーションセットに分割する。
列車価分割は,表現性を損なうことなく,学習した表現を低ランクにすることを促すと論じる。
サンプル効率は低ランク性から恩恵を受けるため、分割戦略は見当たらないテストタスクを解決するのに非常に少数のサンプルを必要とする。
論文 参考訳(メタデータ) (2021-06-29T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。