論文の概要: Predictive Batch Scheduling: Accelerating Language Model Training Through Loss-Aware Sample Prioritization
- arxiv url: http://arxiv.org/abs/2602.17066v1
- Date: Thu, 19 Feb 2026 04:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.690663
- Title: Predictive Batch Scheduling: Accelerating Language Model Training Through Loss-Aware Sample Prioritization
- Title(参考訳): 予測バッチスケジューリング:損失認識サンプル優先順位付けによる言語モデルトレーニングの高速化
- Authors: Sumedh Rasal,
- Abstract要約: 予測バッチスケジューリング(PBS)は,新しいトレーニング最適化手法である。
PBSはバッチ構築時に高損失サンプルを優先する。
予測器は4つの単純な特徴のみを用いて実際の損失と0.44の相関を達成している。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Predictive Batch Scheduling (PBS), a novel training optimization technique that accelerates language model convergence by dynamically prioritizing high-loss samples during batch construction. Unlike curriculum learning approaches that require predefined difficulty metrics or hard example mining methods that demand expensive per-sample loss tracking, PBS employs a lightweight linear predictor trained online to estimate sample difficulty from static token-level features. Our predictor achieves 0.44 correlation with actual loss using only four simple features: token frequency, sequence length, vocabulary diversity, and rare token ratio. Experiments on a 130M parameter transformer demonstrate that PBS achieves 6-13\% faster convergence measured by evaluation loss across training checkpoints, with the predictor's correlation improving from 0.14 to 0.44 over 10,000 training steps. These results validate that token frequency statistics encode meaningful information about sample difficulty, enabling effective curriculum learning with negligible computational overhead.
- Abstract(参考訳): バッチ構築中に高損失サンプルを動的に優先順位付けすることで言語モデルの収束を促進させる新しいトレーニング最適化手法である予測バッチスケジューリング(PBS)を導入する。
PBSは、事前定義された難易度指標や、高価なサンプル単位の損失追跡を必要とするハードサンプルマイニング手法を必要とするカリキュラム学習アプローチとは異なり、静的トークンレベルの特徴からサンプルの難易度を推定するために、オンラインで訓練された軽量線形予測器を使用している。
予測器は, トークン周波数, シーケンス長, 語彙の多様性, 希少トークン比の4つの単純な特徴を用いて, 実際の損失と0.44の相関を達成している。
130Mパラメータトランスの実験では、PBSはトレーニングチェックポイント間の評価損失によって測定された6~13倍の高速収束を実現し、予測器の相関は1万回のトレーニングステップで0.14から0.44に改善された。
これらの結果から,トークン頻度統計はサンプルの難易度に関する有意義な情報を符号化し,計算オーバーヘッドを無視して効果的なカリキュラム学習を可能にすることが確認された。
関連論文リスト
- Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning [43.11305591635628]
オルモ3-7Bは400サンプルの128エポックで訓練され、51200サンプルの1エポックを12-26ポイント上回った。
トレーニングトークンの精度は、繰り返しが飽和した時に確実にシグナルとなる。
論文 参考訳(メタデータ) (2026-02-11T18:58:54Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models [15.50128790503447]
我々はMin-K%++という名前の事前学習データ検出のための新しい理論的動機付け手法を提案する。
具体的には,各入力次元に沿ったモデル分布の局所的な最大値であることを示す。
論文 参考訳(メタデータ) (2024-04-03T04:25:01Z) - Understanding the Training Speedup from Sampling with Approximate Losses [14.166048343288157]
本研究は, 正確な損失ではなく, 大規模なテクスタイトアポキシメート損失を有する試料を選択するという欲求的なアプローチに焦点をあてる。
滑らかな凸損失に対して、そのような欲求戦略は、より少ないイテレーションで平均損失の最小値の定数係数に収束できることを示す。
次に,早期退避を利用してサンプル選択のための中間層表現を用いて近似損失を求めるSIFTを開発する。
論文 参考訳(メタデータ) (2024-02-10T21:51:59Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Robust Few-shot Learning Without Using any Adversarial Samples [19.34427461937382]
高度なメタラーニング技術を用いて、数発の問題をロバストネスの目的と組み合わせる試みがいくつかなされている。
逆のサンプルを一切必要としない単純で効果的な代替案を提案する。
ヒトの認知的意思決定プロセスにインスパイアされ、ベースクラスデータとそれに対応する低周波サンプルの高レベル特徴マッチングを強制する。
論文 参考訳(メタデータ) (2022-11-03T05:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。