論文の概要: Instability in Downstream Task Performance During LLM Pretraining
- arxiv url: http://arxiv.org/abs/2510.04848v1
- Date: Mon, 06 Oct 2025 14:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.900599
- Title: Instability in Downstream Task Performance During LLM Pretraining
- Title(参考訳): LLMプレトレーニングにおける下流タスク性能の不安定性
- Authors: Yuto Nishida, Masaru Isonuma, Yusuke Oda,
- Abstract要約: 多様なWebスケールコーパスで学習した大規模言語モデル(LLM)における下流タスク性能の安定性について検討する。
タスクスコアは、アグリゲーションレベルとサンプルレベルの両方で、トレーニングを通して頻繁に変動する。
この不安定性に対処するために、チェックポイント平均化とアンサンブルという2つのポストホックチェックポイント統合手法について検討する。
- 参考スコア(独自算出の注目度): 12.840216854750565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training large language models (LLMs), it is common practice to track downstream task performance throughout the training process and select the checkpoint with the highest validation score. However, downstream metrics often exhibit substantial fluctuations, making it difficult to identify the checkpoint that truly represents the best-performing model. In this study, we empirically analyze the stability of downstream task performance in an LLM trained on diverse web-scale corpora. We find that task scores frequently fluctuate throughout training, both at the aggregate and example levels. To address this instability, we investigate two post-hoc checkpoint integration methods: checkpoint averaging and ensemble, motivated by the hypothesis that aggregating neighboring checkpoints can reduce performance volatility. We demonstrate both empirically and theoretically that these methods improve downstream performance stability without requiring any changes to the training procedure.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングでは、トレーニングプロセス全体を通して下流タスクのパフォーマンスを追跡し、最も高い検証スコアでチェックポイントを選択するのが一般的である。
しかし、下流のメトリクスは、しばしばかなりの変動を示し、最高のパフォーマンスモデルを示すチェックポイントを特定することは困難である。
本研究では,様々なWebスケールコーパスで学習したLLMにおいて,下流タスク性能の安定性を実証的に解析する。
タスクスコアは、アグリゲーションレベルとサンプルレベルの両方で、トレーニングを通して頻繁に変動する。
この不安定性に対処するため,チェックポイント平均化とアンサンブルという2つのポストホックチェックポイント統合手法について検討した。
我々は,これらの手法がトレーニング手順の変更を必要とせず,ダウンストリーム性能の安定性を向上させることを実証的および理論的に実証した。
関連論文リスト
- AnaCP: Toward Upper-Bound Continual Learning via Analytic Contrastive Projection [11.750791465488438]
本稿では,CIL(Class-Incremental Learning)の問題について考察する。
事前訓練モデル(PTM)を使わない従来のCIL法は、破滅的忘れ(CF)に苦しむ
本稿では,AnaCPを提案する。AnaCPは解析的分類器の効率を保ちつつ,段階的特徴適応を実現し,勾配に基づく学習を行なわない新しい手法である。
論文 参考訳(メタデータ) (2025-11-17T19:56:15Z) - Uncertainty-Guided Checkpoint Selection for Reinforcement Finetuning of Large Language Models [27.97382399449914]
強化学習(RL)ファインタニングは大規模言語モデル(LLM)の整合に不可欠であるが、そのプロセスは不安定である。
実際に、最高のチェックポイントを選択することは難しい。トレーニング中の検証セットのチェックポイントを評価することは、計算コストが高く、優れた検証セットが必要である。
チェックポイント選択(UGCS)に対する不確実性誘導手法を導入し,これらの落とし穴を回避する。
論文 参考訳(メタデータ) (2025-11-13T01:46:58Z) - BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging [2.9761595094633435]
チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに組み合わせるテクニックである。
本稿では,パラメータ効率のよい微調整の文脈におけるチェックポイントのマージについて検討する。
本稿では,パラメータの重み付けによるモデルチェックポイントのマージにMWA(Metrics-Weighted Averaging)を提案する。
論文 参考訳(メタデータ) (2025-04-23T05:11:21Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Early-Stage Anomaly Detection: A Study of Model Performance on Complete vs. Partial Flows [0.0]
本研究では,部分フロー情報と完全フロー情報の臨界レンズによるネットワークセキュリティ脅威検出における機械学習モデルの有効性について検討した。
標準ベンチマークモデルであるランダムフォレスト(Random Forest)が、様々なトレーニングおよびテスト条件下でどのように機能するかを評価する。
論文 参考訳(メタデータ) (2024-07-03T07:14:25Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Large Language Models are Miscalibrated In-Context Learners [22.30783674111999]
本研究では,学習方法の異なる選択にまたがる行動の詳細な分析を行う。
低リソース環境における全ての学習手法に誤校正問題が存在することを観察する。
最大確率で自己認識を行うことで,ロバストかつ校正された予測が得られることがわかった。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z) - Average of Pruning: Improving Performance and Stability of
Out-of-Distribution Detection [37.43981354073841]
OOD検出の性能はトレーニング中の過度な適合と不安定性に悩まされている。
モデル平均化とプルーニングからなるAoP(Average of Pruning)を提案し,不安定な挙動を緩和する。
論文 参考訳(メタデータ) (2023-03-02T12:34:38Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。