論文の概要: Instability in Downstream Task Performance During LLM Pretraining
- arxiv url: http://arxiv.org/abs/2510.04848v1
- Date: Mon, 06 Oct 2025 14:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.900599
- Title: Instability in Downstream Task Performance During LLM Pretraining
- Title(参考訳): LLMプレトレーニングにおける下流タスク性能の不安定性
- Authors: Yuto Nishida, Masaru Isonuma, Yusuke Oda,
- Abstract要約: 多様なWebスケールコーパスで学習した大規模言語モデル(LLM)における下流タスク性能の安定性について検討する。
タスクスコアは、アグリゲーションレベルとサンプルレベルの両方で、トレーニングを通して頻繁に変動する。
この不安定性に対処するために、チェックポイント平均化とアンサンブルという2つのポストホックチェックポイント統合手法について検討する。
- 参考スコア(独自算出の注目度): 12.840216854750565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training large language models (LLMs), it is common practice to track downstream task performance throughout the training process and select the checkpoint with the highest validation score. However, downstream metrics often exhibit substantial fluctuations, making it difficult to identify the checkpoint that truly represents the best-performing model. In this study, we empirically analyze the stability of downstream task performance in an LLM trained on diverse web-scale corpora. We find that task scores frequently fluctuate throughout training, both at the aggregate and example levels. To address this instability, we investigate two post-hoc checkpoint integration methods: checkpoint averaging and ensemble, motivated by the hypothesis that aggregating neighboring checkpoints can reduce performance volatility. We demonstrate both empirically and theoretically that these methods improve downstream performance stability without requiring any changes to the training procedure.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングでは、トレーニングプロセス全体を通して下流タスクのパフォーマンスを追跡し、最も高い検証スコアでチェックポイントを選択するのが一般的である。
しかし、下流のメトリクスは、しばしばかなりの変動を示し、最高のパフォーマンスモデルを示すチェックポイントを特定することは困難である。
本研究では,様々なWebスケールコーパスで学習したLLMにおいて,下流タスク性能の安定性を実証的に解析する。
タスクスコアは、アグリゲーションレベルとサンプルレベルの両方で、トレーニングを通して頻繁に変動する。
この不安定性に対処するため,チェックポイント平均化とアンサンブルという2つのポストホックチェックポイント統合手法について検討した。
我々は,これらの手法がトレーニング手順の変更を必要とせず,ダウンストリーム性能の安定性を向上させることを実証的および理論的に実証した。
関連論文リスト
- Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging [2.9761595094633435]
チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに組み合わせるテクニックである。
本稿では,パラメータ効率のよい微調整の文脈におけるチェックポイントのマージについて検討する。
本稿では,パラメータの重み付けによるモデルチェックポイントのマージにMWA(Metrics-Weighted Averaging)を提案する。
論文 参考訳(メタデータ) (2025-04-23T05:11:21Z) - SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows [0.0]
本研究では,部分フロー情報と完全フロー情報の臨界レンズによるネットワークセキュリティ脅威検出における機械学習モデルの有効性について検討した。
標準ベンチマークモデルであるランダムフォレスト(Random Forest)が、様々なトレーニングおよびテスト条件下でどのように機能するかを評価する。
論文 参考訳(メタデータ) (2024-07-03T07:14:25Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Large Language Models are Miscalibrated In-Context Learners [22.30783674111999]
本研究では,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
低リソース環境における全ての学習手法に誤校正問題が存在することを観察する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z) - Average of Pruning: Improving Performance and Stability of
Out-of-Distribution Detection [37.43981354073841]
OOD検出の性能はトレーニング中の過度な適合と不安定性に悩まされている。
モデル平均化とプルーニングからなるAoP(Average of Pruning)を提案し,不安定な挙動を緩和する。
論文 参考訳(メタデータ) (2023-03-02T12:34:38Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。