論文の概要: Mixtraining: A Better Trade-Off Between Compute and Performance
- arxiv url: http://arxiv.org/abs/2502.19513v2
- Date: Wed, 05 Mar 2025 03:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:54.364112
- Title: Mixtraining: A Better Trade-Off Between Compute and Performance
- Title(参考訳): Mixtraining: コンピューティングとパフォーマンスのトレードオフを改善する
- Authors: Zexin Li, Jiancheng Zhang, Yufei Li, Yinglun Zhu, Cong Liu,
- Abstract要約: MixTrainingは、複数のSSLおよびSLエポックを統合混合トレーニングフェーズ内でインターリーブする、新しいフレームワークである。
SSLとSLのシナジーを強化し、精度を改善し、共有ステップを統合して計算オーバーヘッドを削減する。
実験により、MixTrainingは従来のパイプラインに比べて優れた計算性能のトレードオフを提供することが示された。
- 参考スコア(独自算出の注目度): 19.187160313686782
- License:
- Abstract: Incorporating self-supervised learning (SSL) before standard supervised learning (SL) has become a widely used strategy to enhance model performance, particularly in data-limited scenarios. However, this approach introduces a trade-off between computation and performance: while SSL helps with representation learning, it requires a separate, often time-consuming training phase, increasing computational overhead and limiting efficiency in resource-constrained settings. To address these challenges, we propose MixTraining, a novel framework that interleaves several SSL and SL epochs within a unified mixtraining training phase, featuring a smooth transition between two learning objectives. MixTraining enhances synergy between SSL and SL for improved accuracy and consolidates shared computation steps to reduce computation overhead. MixTraining is versatile and applicable to both single-task and multi-task learning scenarios. Extensive experiments demonstrate that MixTraining offers a superior compute-performance trade-off compared to conventional pipelines, achieving an 8.81% absolute accuracy gain (18.89% relative accuracy gain) on the TinyImageNet dataset while accelerating training by up to 1.29x with the ViT-Tiny model.
- Abstract(参考訳): 標準教師付き学習(SL)の前に自己教師付き学習(SSL)を組み込むことは、特にデータ制限シナリオにおいて、モデル性能を高めるために広く使われている戦略となっている。
しかし、このアプローチは計算とパフォーマンスのトレードオフをもたらす。SSLは表現学習に役立つが、別の時間を要するトレーニングフェーズが必要であり、計算オーバーヘッドが増加し、リソース制約のある設定で効率が制限される。
これらの課題に対処するために,2つの学習目標間のスムーズな移行を特徴とする,SSLとSLのエポックを統合学習フェーズ内でインターリーブする新しいフレームワークであるMixTrainingを提案する。
MixTrainingはSSLとSLのシナジーを強化し、精度を改善し、共有計算ステップを統合して計算オーバーヘッドを削減する。
MixTrainingは汎用的で、シングルタスクとマルチタスクの学習シナリオの両方に適用できる。
大規模な実験により、MixTrainingは従来のパイプラインよりも優れた計算性能のトレードオフを提供し、TinyImageNetデータセット上で8.81%の絶対精度(18.89%の相対精度ゲイン)を達成する一方で、ViT-Tinyモデルで最大1.29倍のトレーニングを加速することを示した。
関連論文リスト
- An Empirical Study of Accuracy-Robustness Tradeoff and Training Efficiency in Self-Supervised Learning [1.590683264892176]
自己教師付き学習(SSL)は画像表現学習が大幅に進歩しているが、効率の課題は継続する。
我々は、画像当たりの作物数を増やすことの重要性を強調し、堅牢なEMP-SSLフレームワークを再考する。
我々は、コストフリーのマルチクロップ自己監視学習(CF-AMC-SSL)を導入して、マルチクロップSSLにおける自由敵トレーニングによるこのアプローチを拡張した。
論文 参考訳(メタデータ) (2025-01-07T03:50:11Z) - Self-supervised visual learning in the low-data regime: a comparative evaluation [38.34785825702943]
自己監視学習(SSL)は、現代のディープニューラルネットワーク(DNN)のための価値ある、堅牢なトレーニング手法である
大量のラベルのないトレーニングデータから効率的な表現学習を可能にする。
非常に大きな事前学習データセットの収集や利用が常に可能であるとは限らない。
論文 参考訳(メタデータ) (2024-04-26T07:23:14Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - Boosting Discriminative Visual Representation Learning with
Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。
具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。
非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-30T14:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。