Fugu-MT 論文翻訳(概要): How to Train Your Multi-Exit Model? Analyzing the Impact of Training Strategies

論文の概要: How to Train Your Multi-Exit Model? Analyzing the Impact of Training Strategies

arxiv url: http://arxiv.org/abs/2407.14320v2
Date: Sat, 21 Jun 2025 10:00:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.204723
Title: How to Train Your Multi-Exit Model? Analyzing the Impact of Training Strategies
Title（参考訳）: マルチエクイットモデルのトレーニング方法 : トレーニング戦略の影響の分析
Authors: Piotr Kubaty, Bartosz Wójcik, Bartłomiej Krzepkowski, Monika Michaluk, Tomasz Trzciński, Jary Pomponi, Kamil Adamczewski,
Abstract要約: 早期の出口は、トレーニング可能な内部分類器をバックボーンネットワークにアタッチすることで、ネットワークの前方通過が早期に終了することを可能にする。既存のアーリーエグジット法は、一般的には、バックボーンと出口ヘッドを同時に訓練するジョイントトレーニングアプローチ、またはヘッドを別々に訓練するディスジョイントアプローチを採用する。本稿では,早期からのトレーニングダイナミクスを分析し,トレーニング戦略の選択を導くための指標について紹介する。
参考スコア（独自算出の注目度）: 3.1836117900874825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Early exits enable the network's forward pass to terminate early by attaching trainable internal classifiers to the backbone network. Existing early-exit methods typically adopt either a joint training approach, where the backbone and exit heads are trained simultaneously, or a disjoint approach, where the heads are trained separately. However, the implications of this choice are often overlooked, with studies typically adopting one approach without adequate justification. This choice influences training dynamics and its impact remains largely unexplored. In this paper, we introduce a set of metrics to analyze early-exit training dynamics and guide the choice of training strategy. We demonstrate that conventionally used joint and disjoint regimes yield suboptimal performance. To address these limitations, we propose a mixed training strategy: the backbone is trained first, followed by the training of the entire multi-exit network. Through comprehensive evaluations of training strategies across various architectures, datasets, and early-exit methods, we present the strengths and weaknesses of the early exit training strategies. In particular, we show consistent improvements in performance and efficiency using the proposed mixed strategy.
Abstract（参考訳）: 早期の出口は、トレーニング可能な内部分類器をバックボーンネットワークにアタッチすることで、ネットワークの前方通過が早期に終了することを可能にする。既存のアーリーエグジット法は、一般的には、バックボーンと出口ヘッドを同時に訓練するジョイントトレーニングアプローチ、またはヘッドを別々に訓練するディスジョイントアプローチを採用する。しかしながら、この選択の意味はしばしば見過ごされ、研究は通常、適切な正当化なしに一つのアプローチを採用する。この選択はトレーニングのダイナミクスに影響を与え、その影響はほとんど未調査のままである。本稿では,早期の学習力学を解析し,学習戦略の選択を導くための指標について紹介する。従来使用されていた関節と関節の解離が準最適性能をもたらすことを示す。これらの制約に対処するために、バックボーンをまずトレーニングし、次にマルチエグジットネットワーク全体のトレーニングを行う、混合トレーニング戦略を提案する。各種アーキテクチャ,データセット,早期終了メソッドを対象とした総合的なトレーニング戦略の評価を通じて,早期終了トレーニング戦略の長所と短所を提示する。特に、提案した混合戦略を用いて、性能と効率を一貫した改善を示す。

関連論文リスト

Boosting Meta-Training with Base Class Information for Few-Shot Learning [35.144099160883606]
2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。
論文参考訳（メタデータ） (2024-03-06T05:13:23Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文参考訳（メタデータ） (2023-12-19T03:24:55Z)
Fast Propagation is Better: Accelerating Single-Step Adversarial Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。モデルの内部構造ブロックを利用して効率を向上させることを提案する。従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文参考訳（メタデータ） (2023-10-24T01:36:20Z)
Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文参考訳（メタデータ） (2023-01-26T18:58:07Z)
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-11-17T18:59:49Z)
Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文参考訳（メタデータ） (2022-09-17T10:46:32Z)
Adversarial Coreset Selection for Efficient Robust Training [11.510009152620666]
トレーニングデータの小さなサブセットを選択することは、堅牢なトレーニングの時間的複雑さを軽減するための原則的なアプローチを提供する方法を示す。本手法が敵の訓練を2～3回高速化することを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-09-13T07:37:53Z)
Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文参考訳（メタデータ） (2022-05-02T04:04:23Z)
Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文参考訳（メタデータ） (2021-06-16T15:57:51Z)
Class Means as an Early Exit Decision Mechanism [18.300490726072326]
本稿では,サンプルの類型的手法に基づく新しい早期出口手法を提案する。この手法は低消費電力デバイスにおけるニューラルネットワークトレーニングに特に有用である。
論文参考訳（メタデータ） (2021-03-01T17:31:55Z)
Consensus Control for Decentralized Deep Learning [72.50487751271069]
ディープラーニングモデルの分散トレーニングは、ネットワーク上のデバイス上での学習と、大規模計算クラスタへの効率的なスケーリングを可能にする。理論上、トレーニングコンセンサス距離が重要な量よりも低い場合、分散化されたトレーニングは集中的なトレーニングよりも早く収束することを示す。私たちの経験的な洞察は、パフォーマンス低下を軽減するために、より分散化されたトレーニングスキームの原則設計を可能にします。
論文参考訳（メタデータ） (2021-02-09T13:58:33Z)
Empirical Evaluation of Supervision Signals for Style Transfer Models [44.39622949370144]
本研究は,トレーニング中に指導信号を提供する支配的な最適化パラダイムを実証的に比較する。バックトランスレーションにはモデル固有の制限があり、トレーニングスタイルのトランスファーモデルを阻害する。また、私たちの知識では、スタイル転送のタスクで経験的に評価されていない機械翻訳コミュニティで人気のあるテクニックである最小リスクトレーニングを実験しています。
論文参考訳（メタデータ） (2021-01-15T15:33:30Z)
How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文参考訳（メタデータ） (2020-10-12T16:48:42Z)
Efficient Robust Training via Backward Smoothing [125.91185167854262]
敵の訓練は敵の例に対抗して最も効果的な戦略である。トレーニングの各ステップにおける反復的な敵攻撃により、高い計算コストに悩まされる。近年の研究では、単一段階攻撃を行うことで、高速な対人訓練が可能であることが示されている。
論文参考訳（メタデータ） (2020-10-03T04:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。