論文の概要: A Novel DNN Training Framework via Data Sampling and Multi-Task
Optimization
- arxiv url: http://arxiv.org/abs/2007.01016v1
- Date: Thu, 2 Jul 2020 10:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 12:50:12.034108
- Title: A Novel DNN Training Framework via Data Sampling and Multi-Task
Optimization
- Title(参考訳): データサンプリングとマルチタスク最適化による新しいDNNトレーニングフレームワーク
- Authors: Boyu Zhang, A. K. Qin, Hong Pan, Timos Sellis
- Abstract要約: DNNモデルをトレーニングするための新しいフレームワークを提案する。
ランダムスプリッティングにより、総合的なトレーニングセットから複数のトレーニングセットと検証セットを生成する。
トレーニングされたすべてのモデルの中で最高のパフォーマンスを出力し、すべてのペアから検証セット全体で全体の最高のパフォーマンスを出力します。
- 参考スコア(独自算出の注目度): 7.001799696806368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional DNN training paradigms typically rely on one training set and
one validation set, obtained by partitioning an annotated dataset used for
training, namely gross training set, in a certain way. The training set is used
for training the model while the validation set is used to estimate the
generalization performance of the trained model as the training proceeds to
avoid over-fitting. There exist two major issues in this paradigm. Firstly, the
validation set may hardly guarantee an unbiased estimate of generalization
performance due to potential mismatching with test data. Secondly, training a
DNN corresponds to solve a complex optimization problem, which is prone to
getting trapped into inferior local optima and thus leads to undesired training
results. To address these issues, we propose a novel DNN training framework. It
generates multiple pairs of training and validation sets from the gross
training set via random splitting, trains a DNN model of a pre-specified
structure on each pair while making the useful knowledge (e.g., promising
network parameters) obtained from one model training process to be transferred
to other model training processes via multi-task optimization, and outputs the
best, among all trained models, which has the overall best performance across
the validation sets from all pairs. The knowledge transfer mechanism featured
in this new framework can not only enhance training effectiveness by helping
the model training process to escape from local optima but also improve on
generalization performance via implicit regularization imposed on one model
training process from other model training processes. We implement the proposed
framework, parallelize the implementation on a GPU cluster, and apply it to
train several widely used DNN models. Experimental results demonstrate the
superiority of the proposed framework over the conventional training paradigm.
- Abstract(参考訳): 従来のDNNトレーニングパラダイムは、トレーニングに使用される注釈付きデータセット、すなわち粗いトレーニングセットを特定の方法で分割することで得られる、1つのトレーニングセットと1つの検証セットに依存している。
トレーニングセットはモデルのトレーニングに使用され、検証セットはトレーニングが過度な適合を避けるために進むにつれてトレーニングモデルの一般化性能を推定するために使用される。
このパラダイムには2つの大きな問題があります。
まず、検証セットは、テストデータとの潜在的なミスマッチによる一般化性能の偏りのない推定をほとんど保証しない。
第二に、dnnの訓練は複雑な最適化問題を解決することに対応しており、これは劣る局所視光に閉じ込められやすいため、望ましくない訓練結果をもたらす。
これらの課題に対処するために,我々は新しいDNNトレーニングフレームワークを提案する。
ランダムスプリッティングにより総合トレーニングセットから複数のペアのトレーニングセットを生成し、一つのモデルトレーニングプロセスから得られた有用な知識(例えば、有望なネットワークパラメータ)をマルチタスク最適化によって他のモデルトレーニングプロセスに転送しながら、各ペアの事前指定された構造のDNNモデルを訓練し、全てのモデルの中で最高の性能を持つ訓練セットを出力する。
この新フレームワークで特徴付けられる知識伝達機構は、モデルトレーニングプロセスが局所最適から逃れるのを支援することでトレーニング効率を向上させるだけでなく、他のモデルトレーニングプロセスから1つのモデルトレーニングプロセスに課される暗黙の正規化によって一般化性能を向上させることができる。
提案するフレームワークを実装し,GPUクラスタ上での実装を並列化し,広く使用されているDNNモデルのトレーニングに適用する。
実験の結果,従来の学習パラダイムよりも優れた枠組みが得られた。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Once-for-All Adversarial Training: In-Situ Tradeoff between Robustness
and Accuracy for Free [115.81899803240758]
敵の訓練とその多くの変種は、ネットワークの堅牢性を大幅に改善するが、標準精度を妥協するコストがかかる。
本稿では,訓練されたモデルをその場で迅速に校正する方法を問うとともに,その標準と堅牢な精度のトレードオフについて検討する。
提案するフレームワークであるOne-for-all Adversarial Training (OAT)は,革新的なモデル条件トレーニングフレームワーク上に構築されている。
論文 参考訳(メタデータ) (2020-10-22T16:06:34Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z) - A Novel Training Protocol for Performance Predictors of Evolutionary
Neural Architecture Search Algorithms [10.658358586764171]
進化的ニューラルネットワーク探索(ENAS)は、進化的計算アルゴリズムを用いてディープニューラルネットワーク(DNN)のアーキテクチャを自動的に設計することができる。
性能予測器は、計算資源を多く必要とせず、探索を補助できる回帰モデルの一種である。
本稿では,これらの課題に対処する新たなトレーニングプロトコルを提案する。トレーニングターゲットを構築するためのペアワイズランキングインジケータを設計し,ロジスティック回帰を用いてトレーニングサンプルに適合させ,トレーニングインスタンスを構築するための差分法を開発することを提案する。
論文 参考訳(メタデータ) (2020-08-30T14:39:28Z) - PrIU: A Provenance-Based Approach for Incrementally Updating Regression
Models [9.496524884855559]
本稿では,予測精度を犠牲にすることなく,モデルパラメータを漸進的に更新する手法PrIUを提案する。
漸進的に更新されたモデルパラメータの正しさと収束性を証明し、実験的に検証する。
実験結果から, PrIU-optはスクラッチからモデルを再トレーニングするのに対して, 非常に類似したモデルを得るよりも, 最大2桁のスピードアップを達成できることがわかった。
論文 参考訳(メタデータ) (2020-02-26T21:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。