Fugu-MT 論文翻訳(概要): Joint or Disjoint: Mixing Training Regimes for Early-Exit Models

論文の概要: Joint or Disjoint: Mixing Training Regimes for Early-Exit Models

arxiv url: http://arxiv.org/abs/2407.14320v1
Date: Fri, 19 Jul 2024 13:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 17:24:54.168725
Title: Joint or Disjoint: Mixing Training Regimes for Early-Exit Models
Title（参考訳）: ジョイントまたはディジョイント:初期モデルのための混合トレーニングレジーム
Authors: Bartłomiej Krzepkowski, Monika Michaluk, Franciszek Szarwacki, Piotr Kubaty, Jary Pomponi, Tomasz Trzciński, Bartosz Wójcik, Kamil Adamczewski,
Abstract要約: 早期出口はディープニューラルネットワークに必要な計算量を大幅に削減する。ほとんどの早期出口法では、バックボーンネットワークと出口ヘッドを同時に訓練するか、出口ヘッドを別々に訓練する訓練戦略を採用している。本稿では,バックボーンを自力でトレーニングし,その後にバックボーンと出口ヘッドを併用したトレーニング手法を提案する。
参考スコア（独自算出の注目度）: 3.052154851421859
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Early exits are an important efficiency mechanism integrated into deep neural networks that allows for the termination of the network's forward pass before processing through all its layers. By allowing early halting of the inference process for less complex inputs that reached high confidence, early exits significantly reduce the amount of computation required. Early exit methods add trainable internal classifiers which leads to more intricacy in the training process. However, there is no consistent verification of the approaches of training of early exit methods, and no unified scheme of training such models. Most early exit methods employ a training strategy that either simultaneously trains the backbone network and the exit heads or trains the exit heads separately. We propose a training approach where the backbone is initially trained on its own, followed by a phase where both the backbone and the exit heads are trained together. Thus, we advocate for organizing early-exit training strategies into three distinct categories, and then validate them for their performance and efficiency. In this benchmark, we perform both theoretical and empirical analysis of early-exit training regimes. We study the methods in terms of information flow, loss landscape and numerical rank of activations and gauge the suitability of regimes for various architectures and datasets.
Abstract（参考訳）: アーリーエグジットは、ディープニューラルネットワークに統合された重要な効率メカニズムであり、ネットワークのフォワードパスが終了して、すべてのレイヤを処理できるようになる。信頼度の高い少ない入力に対する推論プロセスの早期停止を可能にすることで、早期終了は計算量を大幅に削減した。早期終了メソッドはトレーニングプロセスにおいてより複雑になるトレーニング可能な内部分類器を追加する。しかし、早期出口法の訓練方法のアプローチについては一貫した検証は行わず、そのようなモデルを統一的に訓練する方法も存在しない。初期の出口法のほとんどは、バックボーンネットワークと出口ヘッドを同時に訓練するか、出口ヘッドを別々に訓練する訓練戦略を採用している。本稿では,バックボーンを自力でトレーニングし,その後にバックボーンと出口ヘッドを併用したトレーニング手法を提案する。そこで我々は,早期退学訓練戦略を3つの異なるカテゴリに整理し,その性能と効率性について検証することを提唱する。本ベンチマークでは,早期退学訓練体制の理論的および経験的分析を行う。本手法は,情報フロー,損失景観,アクティベーションの数値的ランクといった観点から検討し,各種アーキテクチャやデータセットに対するレジームの適合性を評価する。

関連論文リスト

Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文参考訳（メタデータ） (2024-03-06T05:13:23Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文参考訳（メタデータ） (2023-12-19T03:24:55Z)
Fast Propagation is Better: Accelerating Single-Step Adversarial Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。モデルの内部構造ブロックを利用して効率を向上させることを提案する。従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文参考訳（メタデータ） (2023-10-24T01:36:20Z)
Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文参考訳（メタデータ） (2023-01-26T18:58:07Z)
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-11-17T18:59:49Z)
Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文参考訳（メタデータ） (2022-09-17T10:46:32Z)
Adversarial Coreset Selection for Efficient Robust Training [11.510009152620666]
トレーニングデータの小さなサブセットを選択することは、堅牢なトレーニングの時間的複雑さを軽減するための原則的なアプローチを提供する方法を示す。本手法が敵の訓練を2～3回高速化することを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-09-13T07:37:53Z)
Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文参考訳（メタデータ） (2022-05-02T04:04:23Z)
Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文参考訳（メタデータ） (2021-06-16T15:57:51Z)
Class Means as an Early Exit Decision Mechanism [18.300490726072326]
本稿では,サンプルの類型的手法に基づく新しい早期出口手法を提案する。この手法は低消費電力デバイスにおけるニューラルネットワークトレーニングに特に有用である。
論文参考訳（メタデータ） (2021-03-01T17:31:55Z)
Consensus Control for Decentralized Deep Learning [72.50487751271069]
ディープラーニングモデルの分散トレーニングは、ネットワーク上のデバイス上での学習と、大規模計算クラスタへの効率的なスケーリングを可能にする。理論上、トレーニングコンセンサス距離が重要な量よりも低い場合、分散化されたトレーニングは集中的なトレーニングよりも早く収束することを示す。私たちの経験的な洞察は、パフォーマンス低下を軽減するために、より分散化されたトレーニングスキームの原則設計を可能にします。
論文参考訳（メタデータ） (2021-02-09T13:58:33Z)
Empirical Evaluation of Supervision Signals for Style Transfer Models [44.39622949370144]
本研究は,トレーニング中に指導信号を提供する支配的な最適化パラダイムを実証的に比較する。バックトランスレーションにはモデル固有の制限があり、トレーニングスタイルのトランスファーモデルを阻害する。また、私たちの知識では、スタイル転送のタスクで経験的に評価されていない機械翻訳コミュニティで人気のあるテクニックである最小リスクトレーニングを実験しています。
論文参考訳（メタデータ） (2021-01-15T15:33:30Z)
How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文参考訳（メタデータ） (2020-10-12T16:48:42Z)
Efficient Robust Training via Backward Smoothing [125.91185167854262]
敵の訓練は敵の例に対抗して最も効果的な戦略である。トレーニングの各ステップにおける反復的な敵攻撃により、高い計算コストに悩まされる。近年の研究では、単一段階攻撃を行うことで、高速な対人訓練が可能であることが示されている。
論文参考訳（メタデータ） (2020-10-03T04:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。