論文の概要: End-to-End Training Induces Information Bottleneck through Layer-Role Differentiation: A Comparative Analysis with Layer-wise Training
- arxiv url: http://arxiv.org/abs/2402.09050v2
- Date: Fri, 31 May 2024 08:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 20:02:19.360300
- Title: End-to-End Training Induces Information Bottleneck through Layer-Role Differentiation: A Comparative Analysis with Layer-wise Training
- Title(参考訳): エンド・ツー・エンド・トレーニングは、レイヤー・ロールの差分によるインフォメーション・ボトルネックを誘導する:レイヤー・ワイド・トレーニングとの比較分析
- Authors: Keitaro Sakamoto, Issei Sato,
- Abstract要約: エンド・ツー・エンド(E2E)トレーニングでは、エラーのバックプロパゲーションを通じてモデル全体を最適化し、ディープラーニングの進歩を根本的に支援する。
E2E訓練のパフォーマンスにはまだ一致しないため、実用性に乏しい。
本稿では,エラーを局所的に設定する非E2E手法であるレイヤワイドトレーニングとの比較により,E2Eトレーニングが優れた性能を示す理由を再考する。
- 参考スコア(独自算出の注目度): 34.316270145027616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) training, optimizing the entire model through error backpropagation, fundamentally supports the advancements of deep learning. Despite its high performance, E2E training faces the problems of memory consumption, parallel computing, and discrepancy with the functionalities of the actual brain. Various alternative methods have been proposed to overcome these difficulties; however, no one can yet match the performance of E2E training, thereby falling short in practicality. Furthermore, there is no deep understanding regarding differences in the trained model properties beyond the performance gap. In this paper, we reconsider why E2E training demonstrates a superior performance through a comparison with layer-wise training, a non-E2E method that locally sets errors. On the basis of the observation that E2E training has an advantage in propagating input information, we analyze the information plane dynamics of intermediate representations based on the Hilbert-Schmidt independence criterion (HSIC). The results of our normalized HSIC value analysis reveal the E2E training ability to exhibit different information dynamics across layers, in addition to efficient information propagation. Furthermore, we show that this layer-role differentiation leads to the final representation following the information bottleneck principle. It suggests the need to consider the cooperative interactions between layers, not just the final layer when analyzing the information bottleneck of deep learning.
- Abstract(参考訳): エンド・ツー・エンド(E2E)トレーニングでは、エラーのバックプロパゲーションを通じてモデル全体を最適化し、ディープラーニングの進歩を根本的に支援する。
高性能にもかかわらず、E2Eトレーニングは、メモリ消費、並列コンピューティング、実際の脳の機能との相違といった問題に直面している。
これらの困難を克服するために、様々な代替手法が提案されているが、E2E訓練のパフォーマンスにはまだ一致しないため、実用性に乏しい。
さらに、トレーニングされたモデル特性の違いについて、パフォーマンスギャップ以外の深い理解はありません。
本稿では,エラーを局所的に設定する非E2E手法であるレイヤワイドトレーニングとの比較により,E2Eトレーニングが優れた性能を示す理由を再考する。
本研究では,E2Eトレーニングが入力情報の伝達に有利であることを示す上で,Hilbert-Schmidt Independent criterion(HSIC)に基づく中間表現の情報平面ダイナミクスを解析した。
正規化HSIC値解析の結果から,効率的な情報伝達に加えて,レイヤ間で異なる情報ダイナミクスを示すE2Eトレーニング能力が明らかとなった。
さらに,この層間区別が,情報ボトルネックの原理に従って最終表現につながることを示す。
これは、ディープラーニングの情報ボトルネックを分析する際に、最終層だけでなく、レイヤ間の協調的な相互作用を検討する必要があることを示唆している。
関連論文リスト
- Exploring End-to-end Differentiable Neural Charged Particle Tracking -- A Loss Landscape Perspective [0.0]
粒子追跡のためのE2E差分型決定型学習手法を提案する。
離散的な代入操作の微分可能なバリエーションは、効率的なネットワーク最適化を可能にすることを示す。
E2Eの微分性は、勾配情報の一般利用に加えて、予測不安定性を緩和するロバスト粒子追跡のための重要なツールである、と我々は主張する。
論文 参考訳(メタデータ) (2024-07-18T11:42:58Z) - E2E-AT: A Unified Framework for Tackling Uncertainty in Task-aware
End-to-end Learning [9.741277008050927]
本稿では,機械学習モデルの入力特徴空間と制約付き最適化モデルの両方で生じる不確実性をカバーする統一フレームワークを提案する。
トレーニング中にCOの不確かさを無視することは、一般化エラーの新たな引き金となる。
このフレームワークはロバストな最適化問題として記述され、エンド・ツー・エンドの対角訓練(E2E-AT)によって現実的に解決されている。
論文 参考訳(メタデータ) (2023-12-17T02:23:25Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Harnessing the Power of Explanations for Incremental Training: A
LIME-Based Approach [6.244905619201076]
この研究では、モデル説明がフィードフォワードトレーニングにフィードバックされ、モデルをより一般化するのに役立つ。
このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)によるカスタム重み付き損失を取り入れている。
提案したカスタムトレーニング手順は、インクリメンタルラーニングセットアップのすべてのフェーズにおいて、0.5%から1.5%までの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2022-11-02T18:16:17Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Revisiting Locally Supervised Learning: an Alternative to End-to-end
Training [36.43515074019875]
そこで我々は,情報伝達(InfoPro)損失を提案する。ローカルモジュールが可能な限り有用な情報を保存することを奨励する。
E2E トレーニングと比較して,InfoPro は 40% 未満のメモリフットプリントで競合性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-01-26T15:02:18Z) - Understanding Learning Dynamics for Neural Machine Translation [53.23463279153577]
ロス・チェンジ・アロケーション (LCA)citeplan 2019-loss-change-allocation を用いてNMTの学習力学を理解することを提案する。
LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。
シミュレーション実験により, 近似計算は効率的であり, 実験により一貫した結果が得られることを示した。
論文 参考訳(メタデータ) (2020-04-05T13:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。