論文の概要: A Bayesian Model Selection Criterion for Selecting Pretraining Checkpoints
- arxiv url: http://arxiv.org/abs/2410.05612v2
- Date: Thu, 29 May 2025 02:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.312986
- Title: A Bayesian Model Selection Criterion for Selecting Pretraining Checkpoints
- Title(参考訳): 事前学習チェックポイントの選択のためのベイズモデル選択基準
- Authors: Michael Munn, Susan Wei,
- Abstract要約: 下流適応性を高める事前学習チェックポイントの特性について検討した。
我々は、チェックポイントの適応性を定量化する下流自由エネルギーと呼ばれるベイズモデル選択基準を導入する。
評価基準が微調整性能の向上と確実に相関することを示す実証的証拠を提供する。
- 参考スコア(独自算出の注目度): 4.005483185111992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in artificial intelligence have been fueled by the development of foundation models such as BERT, GPT, T5, and Vision Transformers. These models are first pretrained on vast and diverse datasets and then adapted to specific downstream tasks, often with significantly less data. However, the mechanisms behind the success of this ubiquitous pretrain-then-adapt paradigm remain underexplored, particularly the characteristics of pretraining checkpoints that enhance downstream adaptation. We introduce a Bayesian model selection criterion, called the downstream free energy, which quantifies a checkpoint's adaptability by measuring the concentration of nearby favorable parameters for the downstream task. We demonstrate that this Bayesian model selection criterion can be effectively implemented without access to the downstream data or prior knowledge of the downstream task. Furthermore, we provide empirical evidence that the criterion reliably correlates with improved finetuning performance, offering a principled approach to predicting model adaptability.
- Abstract(参考訳): 人工知能の最近の進歩は、BERT、GPT、T5、Vision Transformersといった基礎モデルの開発によって加速されている。
これらのモデルは、最初は広範囲で多様なデータセットで事前訓練され、その後、データ量が大幅に少ない特定の下流タスクに適応する。
しかし、このユビキタス・プレトレイン・アダプティブ・パラダイムの成功のメカニズムは、特に下流適応を高める事前訓練チェックポイントの特性について、まだ解明されていない。
我々は、下流自由エネルギーと呼ばれるベイズモデル選択基準を導入し、下流タスクの近傍で好ましいパラメータの濃度を測定することによってチェックポイントの適応性を定量化する。
本研究では,このベイズモデル選択基準を,下流データへのアクセスや下流タスクの事前知識を必要とせずに効果的に実装できることを実証する。
さらに,評価基準が微調整性能の向上と確実に相関することを示す実証的証拠を提供し,モデル適応性を予測するための原則的アプローチを提供する。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。
近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。
我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文 参考訳(メタデータ) (2024-07-21T07:50:49Z) - AiGAS-dEVL: An Adaptive Incremental Neural Gas Model for Drifting Data Streams under Extreme Verification Latency [6.7236795813629]
ストリーミング設定では、データフローはパターン(コンセプトドリフト)の非定常性をもたらす要因によって影響を受ける。
本稿では,AiGAS-dEVLという新しい手法を提案する。これは,時間とともにストリーム内で検出されるすべての概念の分布を特徴付けるために,神経ガスの増大に依存する。
我々のアプローチは、時間とともにこれらの点の挙動をオンライン分析することで、特徴空間における概念の進化が定義できるようになることを明らかにしている。
論文 参考訳(メタデータ) (2024-07-07T14:04:57Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - On the contribution of pre-trained models to accuracy and utility in
modeling distributed energy resources [0.0]
本研究では,微調整の有無にかかわらず,事前学習モデルによる予測精度の向上を評価する。
事前学習されたモデルは異種エージェントに等しく改善するのだろうか。
論文 参考訳(メタデータ) (2023-02-22T22:29:40Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Energy-Based Processes for Exchangeable Data [109.04978766553612]
エネルギーベースモデルを交換可能なデータに拡張するために、エネルギーベースプロセス(EBP)を導入する。
EBPの鍵となる利点は、集合上のより柔軟な分布を、その濃度を制限することなく表現できることである。
本研究では,多種多様なタスクにおける最先端性能を実演する電子掲示板の効率的な訓練手順を開発する。
論文 参考訳(メタデータ) (2020-03-17T04:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。