論文の概要: Dual Language Models: Balancing Training Efficiency and Overfitting Resilience
- arxiv url: http://arxiv.org/abs/2512.14549v1
- Date: Tue, 16 Dec 2025 16:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.78417
- Title: Dual Language Models: Balancing Training Efficiency and Overfitting Resilience
- Title(参考訳): デュアル言語モデル: トレーニングの効率性とレジリエンスのオーバーフィッティングのバランスをとる
- Authors: David Samuel, Lucas Georges Gabriel Charpentier,
- Abstract要約: 本稿では, 自己回帰学習とマスク拡散訓練を併用する。
評価されたすべての設定の下で、両方の目的を組み合わせることが最適であることを示す。
- 参考スコア(独自算出の注目度): 15.019035027130869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper combines autoregressive and masked-diffusion training objectives without any architectural modifications, resulting in flexible language models that outperform single-objective models. Autoregressive modeling has been a popular approach, partly because of its training efficiency; however, that comes at the cost of sensitivity to overfitting. On the other hand, masked-diffusion models are less efficient to train while being more resilient to overfitting. In this work, we demonstrate that dual-objective training achieves the best of both worlds. To derive the optimal ratio between both objectives, we train and evaluate 50 language models under varying levels of data repetition. We show that it is optimal to combine both objectives under all evaluated settings and that the optimal ratio is similar whether targeting autoregressive or masked-diffusion downstream performance.
- Abstract(参考訳): 本稿では, 自己回帰学習とマスク拡散訓練をアーキテクチャ変更なしに組み合わせた結果, 単目的モデルよりも柔軟な言語モデルが得られた。
自己回帰モデリング(Autoregressive Modeling)は、トレーニング効率が理由のひとつだが、過度な適合に対する感受性のコストが伴う。
一方、マスク付き拡散モデルは、オーバーフィッティングに対してより弾力性がありながら、トレーニングの効率が良くない。
本研究では,両世界のベストを達成できることを実証する。
両目的の最適比を導出するために,データ繰り返しの異なるレベルにおいて,50の言語モデルを訓練し,評価する。
本研究は,全ての評価条件下での両目標の組合せが最適であることを示すとともに,自己回帰的あるいはマスク拡散的下流性能を目標とする場合の最適比が類似していることを示す。
関連論文リスト
- Neural Multivariate Regression: Qualitative Insights from the Unconstrained Feature Model [3.1570768364459596]
Unconstrained Feature Model (UFM)は、ディープニューラルネットワーク(DNN)における最小トレーニング損失と関連するパフォーマンス測定のためのクローズドフォーム近似を可能にする数学的フレームワークである。
論文 参考訳(メタデータ) (2025-05-14T11:52:45Z) - Selective Mixup Fine-Tuning for Optimizing Non-Decomposable Objectives [17.10165955576643]
現在の最先端の実証技術は、実用的で非分解不能な性能目標に対して、準最適性能を提供する。
本稿では,SelMixを提案する。SelMixは,事前学習モデルに対して,選択型ミキサアップに基づく安価な微調整技術である。
提案したSelMixファインタニングにより,ベンチマーク間での様々な非分解性目標の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:55:23Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。
アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:07Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。