論文の概要: Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data
- arxiv url: http://arxiv.org/abs/2512.23422v1
- Date: Mon, 29 Dec 2025 12:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.493596
- Title: Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data
- Title(参考訳): Entropy-Guided Token Dropout:限られたドメインデータを用いた自己回帰言語モデルの訓練
- Authors: Jiapeng Wang, Yiwen Hu, Yanzipeng Gao, Haoyu Wang, Shuo Wang, Hongyu Lu, Jiaxin Mao, Wayne Xin Zhao, Junyi Li, Xiao Zhang,
- Abstract要約: 本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
- 参考スコア(独自算出の注目度): 89.96277093034547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As access to high-quality, domain-specific data grows increasingly scarce, multi-epoch training has become a practical strategy for adapting large language models (LLMs). However, autoregressive models often suffer from performance degradation under repeated data exposure, where overfitting leads to a marked decline in model capability. Through empirical analysis, we trace this degradation to an imbalance in learning dynamics: predictable, low-entropy tokens are learned quickly and come to dominate optimization, while the model's ability to generalize on high-entropy tokens deteriorates with continued training. To address this, we introduce EntroDrop, an entropy-guided token dropout method that functions as structured data regularization. EntroDrop selectively masks low-entropy tokens during training and employs a curriculum schedule to adjust regularization strength in alignment with training progress. Experiments across model scales from 0.6B to 8B parameters show that EntroDrop consistently outperforms standard regularization baselines and maintains robust performance throughout extended multi-epoch training. These findings underscore the importance of aligning regularization with token-level learning dynamics when training on limited data. Our approach offers a promising pathway toward more effective adaptation of LLMs in data-constrained domains.
- Abstract(参考訳): 高品質なドメイン固有データへのアクセスがますます少なくなるにつれて、大規模言語モデル(LLM)を適用するための実践的戦略として、マルチエポックトレーニングが採用されている。
しかし、自動回帰モデルは、しばしば繰り返しデータ露光による性能劣化に悩まされ、過度な適合によってモデル能力が著しく低下する。
予測可能で低エントロピーのトークンは素早く学習され、最適化が支配的になる一方、高エントロピーのトークンを一般化するモデルの能力は、継続的なトレーニングによって劣化する。
この問題を解決するために,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
EntroDropはトレーニング中に低エントロピートークンを選択的にマスクし、トレーニングの進捗に合わせて正規化強度を調整するためにカリキュラムスケジュールを使用する。
0.6Bから8Bまでのモデルスケールでの実験では、EntroDropは標準正規化ベースラインを一貫して上回り、拡張されたマルチエポックトレーニングを通じて堅牢なパフォーマンスを維持している。
これらの知見は,限定データを用いたトレーニングにおいて,正規化とトークンレベルの学習力学を整合させることの重要性を浮き彫りにした。
我々のアプローチは、データ制約領域におけるLLMのより効果的な適応に向けた、有望な経路を提供する。
関連論文リスト
- Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning [19.677969862434708]
本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
In-Context Approximation (ICA) は、モデルが候補の例でトレーニングした後のホールドアウト損失を推定する。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
論文 参考訳(メタデータ) (2025-10-16T09:00:39Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Temporal Knowledge Distillation for Time-Sensitive Financial Services
Applications [7.1795069620810805]
異常検出は、金融犯罪検出詐欺やサイバーセキュリティなどの主要なコンプライアンスやリスク機能に頻繁に使用される。
最新のデータパターンでモデルを再トレーニングすることで、急激な変更に追いつくことは、過去のパターンと現在のパターンのバランスをとる上でのプレッシャーをもたらす。
提案手法は、モデル性能を改善しながら、再トレーニング時間に利点をもたらす。
論文 参考訳(メタデータ) (2023-12-28T03:04:30Z) - WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting [30.692056599222926]
時系列予測は、現実の応用において高い実用性のために重要な課題となっている。
最近のディープラーニングベースのアプローチは、時系列予測において顕著な成功を収めている。
深層ネットワークはいまだに不安定なトレーニングと過度な適合に悩まされている。
論文 参考訳(メタデータ) (2022-10-25T19:58:02Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。