論文の概要: ResidualDroppath: Enhancing Feature Reuse over Residual Connections
- arxiv url: http://arxiv.org/abs/2411.09475v1
- Date: Thu, 14 Nov 2024 14:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:04.234421
- Title: ResidualDroppath: Enhancing Feature Reuse over Residual Connections
- Title(参考訳): ResidualDroppath: Residual Connectionによる機能再利用の強化
- Authors: Sejik Park,
- Abstract要約: バニラ残差接続による機能再利用の限界を分析する。
これらの制約に対処するためのトレーニング手法の修正を提案する。
画像分類における残差接続モデルの性能改善について検討した。
- 参考スコア(独自算出の注目度): 0.5221459608786241
- License:
- Abstract: Residual connections are one of the most important components in neural network architectures for mitigating the vanishing gradient problem and facilitating the training of much deeper networks. One possible explanation for how residual connections aid deeper network training is by promoting feature reuse. However, we identify and analyze the limitations of feature reuse with vanilla residual connections. To address these limitations, we propose modifications in training methods. Specifically, we provide an additional opportunity for the model to learn feature reuse with residual connections through two types of iterations during training. The first type of iteration involves using droppath, which enforces feature reuse by randomly dropping a subset of layers. The second type of iteration focuses on training the dropped parts of the model while freezing the undropped parts. As a result, the dropped parts learn in a way that encourages feature reuse, as the model relies on the undropped parts with feature reuse in mind. Overall, we demonstrated performance improvements in models with residual connections for image classification in certain cases.
- Abstract(参考訳): 残留接続は、消滅する勾配問題を緩和し、より深いネットワークのトレーニングを容易にするために、ニューラルネットワークアーキテクチャにおいて最も重要なコンポーネントの1つである。
残余接続がより深いネットワークトレーニングにどのように役立つかの1つの可能な説明は、機能の再利用を促進することである。
しかし,バニラ残差接続による機能再利用の限界を同定し,解析する。
これらの制約に対処するため,トレーニング手法の修正を提案する。
具体的には、トレーニング中に2種類のイテレーションを通じて、残余接続で機能の再利用を学ぶための追加の機会を提供する。
最初のタイプのイテレーションでは、レイヤのサブセットをランダムにドロップすることで機能の再利用を強制するDroppathを使用する。
第2のイテレーションでは、未ドロップのパーツを凍結しながら、モデルのドロップした部分をトレーニングすることに重点を置いている。
その結果、ドロップされたパーツは機能の再利用を促進する方法で学習され、モデルは機能の再利用を念頭に置いて、未ドロップのパーツに依存します。
画像分類における残差接続モデルの性能改善について検討した。
関連論文リスト
- Transfer Learning with Reconstruction Loss [12.906500431427716]
本稿では,モデルに新たな再構築段階を追加することで,新たなモデル学習手法を提案する。
提案手法は、学習した特徴を一般化し、伝達しやすくし、効率的な伝達学習に容易に利用できる。
数値シミュレーションでは、MNIST手書き桁の転送学習、デバイス間無線ネットワークの電力割り当て、複数入出力ネットワークのダウンリンクビームフォーミングとローカライゼーションの3つの応用が研究されている。
論文 参考訳(メタデータ) (2024-03-31T00:22:36Z) - Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Adapt & Align: Continual Learning with Generative Models Latent Space
Alignment [15.729732755625474]
本稿では、生成モデルにおける潜在表現を整列させることにより、ニューラルネットワークの連続的な学習方法であるAdapt & Alignを紹介する。
ニューラルネットワークは、追加データで再トレーニングされた場合、突然のパフォーマンスが低下する。
生成モデルを導入し,その更新過程を2つの部分に分割することで,これらの問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T10:02:17Z) - Deconstructing Data Reconstruction: Multiclass, Weight Decay and General
Losses [28.203535970330343]
Haim et al. (2022) は多層パーセプトロンバイナリ分類器からトレーニングサンプルを再構成する手法を提案した。
我々は、多クラスニューラルネットワークや畳み込みニューラルネットワークからの再構成を含む、いくつかの方向で研究結果を拡張した。
本稿では,ネットワークのこのような再建計画への感受性に寄与する諸要因について検討する。
論文 参考訳(メタデータ) (2023-07-04T17:09:49Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization [65.33914980022303]
時間的行動ローカライゼーション(TAL)は、様々な期間と複雑な内容の行動を予測するために、長期的推論を必要とする。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングできる。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
論文 参考訳(メタデータ) (2022-11-25T12:17:30Z) - Deep Model Reassembly [60.6531819328247]
我々はDeep Model Reassembly(DeRy)と呼ばれる新しい知識伝達タスクを探索する。
DeRyの目標は、まず各モデルを固有のビルディングブロックに分割し、それから派生したブロックを選択的に再組み立てて、カスタマイズされたネットワークを生成することである。
ImageNetでは、最高の再組み立てモデルは微調整なしで78.6%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-10-24T10:16:13Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Transfer Learning via Test-Time Neural Networks Aggregation [11.42582922543676]
ディープニューラルネットワークが従来の機械学習より優れていることが示されている。
ディープ・ネットワークは一般性に欠けており、異なる分布から引き出された新しい(テスト)セットでは性能が良くない。
論文 参考訳(メタデータ) (2022-06-27T15:46:05Z) - Neighbourhood Distillation: On the benefits of non end-to-end
distillation [3.053769836006353]
エンド・ツー・エンド方式の蒸留ネットワークは多様なユースケースにおいて有用であることを示す。
まず、より小さなネットワーク上でのトレーニングとトレーニングを活用することにより、蒸留を高速化することを示す。
第二に、近隣住民はニューラルネットワーク探索のために効率的に訓練されることが示される。
論文 参考訳(メタデータ) (2020-10-02T20:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。