論文の概要: An Empirical Investigation of Pre-trained Model Selection for
Out-of-Distribution Generalization and Calibration
- arxiv url: http://arxiv.org/abs/2307.08187v1
- Date: Mon, 17 Jul 2023 01:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:01:03.171751
- Title: An Empirical Investigation of Pre-trained Model Selection for
Out-of-Distribution Generalization and Calibration
- Title(参考訳): 分散一般化と校正のための事前学習モデル選択に関する実験的検討
- Authors: Hiroki Naganuma, Ryuichiro Hataya
- Abstract要約: 本研究は,事前学習したモデル選択が配布外一般化タスクの微調整に与える影響を明らかにする。
本研究は,事前学習モデル選択の有意な影響を明らかにし,アルゴリズム選択よりも顕著な性能向上を示した。
- 参考スコア(独自算出の注目度): 3.553493344868413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of out-of-distribution generalization tasks, finetuning has
risen as a key strategy. While the most focus has been on optimizing learning
algorithms, our research highlights the influence of pre-trained model
selection in finetuning on out-of-distribution performance and inference
uncertainty. Balancing model size constraints of a single GPU, we examined the
impact of varying pre-trained datasets and model parameters on performance
metrics like accuracy and expected calibration error. Our findings underscore
the significant influence of pre-trained model selection, showing marked
performance improvements over algorithm choice. Larger models outperformed
others, though the balance between memorization and true generalization merits
further investigation. Ultimately, our research emphasizes the importance of
pre-trained model selection for enhancing out-of-distribution generalization.
- Abstract(参考訳): 分配外一般化タスクの領域では、ファインチューニングが重要な戦略となっている。
学習アルゴリズムの最適化に最も焦点が当てられているが,本研究では,学習前モデル選択が分布外性能や推論の不確実性に与える影響を強調した。
1つのGPUのモデルサイズ制約のバランスをとることで、トレーニング済みのデータセットとモデルパラメータが精度やキャリブレーションエラーといったパフォーマンス指標に与える影響を検討した。
本研究は,事前学習モデル選択の有意な影響を明らかにし,アルゴリズム選択よりも顕著な性能向上を示した。
より大きなモデルは他のモデルよりも優れていたが、記憶と真の一般化のバランスはさらなる研究に値する。
究極的には,分散一般化を促進するために事前学習したモデル選択の重要性を強調する。
関連論文リスト
- Maximizing V-information for Pre-training Superior Foundation Models [14.78688545049181]
大規模データセットの事前トレーニング基盤モデルは、例外的なパフォーマンスを示している。
最近の研究では、事前学習データの増加がモデル性能の向上につながるかどうかが疑問視されている。
V情報の最大化のための最適データ効率学習法を開発した。
論文 参考訳(メタデータ) (2024-08-13T10:28:54Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - A study on the impact of pre-trained model on Just-In-Time defect
prediction [10.205110163570502]
RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、CodeGPTJITの6つのモデルを構築します。
本稿では,コミットコードとコミットメッセージを入力として使用する際のモデルの性能と,トレーニング効率とモデル分布の関係について検討する。
論文 参考訳(メタデータ) (2023-09-05T15:34:22Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Domain Generalization using Pretrained Models without Fine-tuning [25.489714555859944]
微調整事前訓練モデルは、ドメイン一般化(DG)タスクにおいて一般的なプラクティスである。
ドメイン一般化のための特別アンサンブル学習(SEDGE)という,様々な事前学習モデルを活用するための新しいドメイン一般化パラダイムを提案する。
SEDGEは、DGタスクの最先端メソッドを含む強力なベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-03-09T09:33:59Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。