Fugu-MT 論文翻訳(概要): An Empirical Investigation of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration

論文の概要: An Empirical Investigation of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration

arxiv url: http://arxiv.org/abs/2307.08187v1
Date: Mon, 17 Jul 2023 01:27:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 15:01:03.171751
Title: An Empirical Investigation of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration
Title（参考訳）: 分散一般化と校正のための事前学習モデル選択に関する実験的検討
Authors: Hiroki Naganuma, Ryuichiro Hataya
Abstract要約: 本研究は,事前学習したモデル選択が配布外一般化タスクの微調整に与える影響を明らかにする。本研究は,事前学習モデル選択の有意な影響を明らかにし,アルゴリズム選択よりも顕著な性能向上を示した。
参考スコア（独自算出の注目度）: 3.553493344868413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the realm of out-of-distribution generalization tasks, finetuning has risen as a key strategy. While the most focus has been on optimizing learning algorithms, our research highlights the influence of pre-trained model selection in finetuning on out-of-distribution performance and inference uncertainty. Balancing model size constraints of a single GPU, we examined the impact of varying pre-trained datasets and model parameters on performance metrics like accuracy and expected calibration error. Our findings underscore the significant influence of pre-trained model selection, showing marked performance improvements over algorithm choice. Larger models outperformed others, though the balance between memorization and true generalization merits further investigation. Ultimately, our research emphasizes the importance of pre-trained model selection for enhancing out-of-distribution generalization.
Abstract（参考訳）: 分配外一般化タスクの領域では、ファインチューニングが重要な戦略となっている。学習アルゴリズムの最適化に最も焦点が当てられているが,本研究では,学習前モデル選択が分布外性能や推論の不確実性に与える影響を強調した。 1つのGPUのモデルサイズ制約のバランスをとることで、トレーニング済みのデータセットとモデルパラメータが精度やキャリブレーションエラーといったパフォーマンス指標に与える影響を検討した。本研究は,事前学習モデル選択の有意な影響を明らかにし,アルゴリズム選択よりも顕著な性能向上を示した。より大きなモデルは他のモデルよりも優れていたが、記憶と真の一般化のバランスはさらなる研究に値する。究極的には,分散一般化を促進するために事前学習したモデル選択の重要性を強調する。

関連論文リスト

What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Optimizing V-information for Self-Supervised Pre-training Data-Effective Medical Foundation Models [15.413974936297082]
大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。基礎モデル事前学習のための貴重なサンプルを選択するために、データ効率のよい学習手法が導入された。実世界の医療領域におけるV情報の最適化のための最適なデータ効率学習手法を開発した。
論文参考訳（メタデータ） (2024-08-13T10:28:54Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-03-14T14:23:23Z)
A study on the impact of pre-trained model on Just-In-Time defect prediction [10.205110163570502]
RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、CodeGPTJITの6つのモデルを構築します。本稿では,コミットコードとコミットメッセージを入力として使用する際のモデルの性能と,トレーニング効率とモデル分布の関係について検討する。
論文参考訳（メタデータ） (2023-09-05T15:34:22Z)
Learning Sample Difficulty from Pre-trained Models for Reliable Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文参考訳（メタデータ） (2023-04-20T07:29:23Z)
SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文参考訳（メタデータ） (2022-10-10T16:07:24Z)
An Empirical Study on Distribution Shift Robustness From the Perspective of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文参考訳（メタデータ） (2022-05-25T13:04:53Z)
Dataset Pruning: Reducing Training Data by Examining Generalization Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか? モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文参考訳（メタデータ） (2022-05-19T05:36:35Z)
Domain Generalization using Pretrained Models without Fine-tuning [25.489714555859944]
微調整事前訓練モデルは、ドメイン一般化(DG)タスクにおいて一般的なプラクティスである。ドメイン一般化のための特別アンサンブル学習(SEDGE)という,様々な事前学習モデルを活用するための新しいドメイン一般化パラダイムを提案する。 SEDGEは、DGタスクの最先端メソッドを含む強力なベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-03-09T09:33:59Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)
Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文参考訳（メタデータ） (2021-03-23T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。