Fugu-MT 論文翻訳(概要): LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order

論文の概要: LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order

arxiv url: http://arxiv.org/abs/2407.04513v2
Date: Fri, 06 Dec 2024 14:20:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:40.795249
Title: LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order
Title（参考訳）: LayerShuffle:レイヤ実行順序のランダム化による視覚変換器のロバスト性向上
Authors: Matthias Freiberger, Peter Kun, Anders Sundnes Løvlie, Sebastian Risi,
Abstract要約: 視覚変換器はテスト時に任意の層の実行順序に適応可能であることを示す。また、ネットワークにおけるレイヤの位置に応じて、レイヤが異なるコントリビューションを学習することを示す。分析の結果,ネットワークにおけるレイヤの位置に応じて,レイヤが異なるコントリビューションを学習できることが判明した。
参考スコア（独自算出の注目度）: 10.362659730151591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to their architecture and how they are trained, artificial neural networks are typically not robust toward pruning or shuffling layers at test time. However, such properties would be desirable for different applications, such as distributed neural network architectures where the order of execution cannot be guaranteed or parts of the network can fail during inference. In this work, we address these issues through a number of training approaches for vision transformers whose most important component is randomizing the execution order of attention modules at training time. With our proposed approaches, vision transformers are capable to adapt to arbitrary layer execution orders at test time assuming one tolerates a reduction (about 20\%) in accuracy at the same model size. We analyse the feature representations of our trained models as well as how each layer contributes to the models prediction based on its position during inference. Our analysis shows that layers learn to contribute differently based on their position in the network. Finally, we layer-prune our models at test time and find that their performance declines gracefully. Code available at https://github.com/matfrei/layershuffle.
Abstract（参考訳）: アーキテクチャとトレーニング方法のため、人工知能のニューラルネットワークは通常、テスト時にレイヤの切断やシャッフルに対して堅牢ではない。しかしながら、このような特性は、実行の順序を保証できない分散ニューラルネットワークアーキテクチャや、推論中にネットワークの一部が失敗する可能性のある分散ニューラルネットワークアーキテクチャなど、さまざまなアプリケーションに望ましい。本研究では,これらの課題に対して,学習時の注意モジュールの実行順序をランダム化することが最も重要なビジョントランスフォーマーのトレーニングアプローチを通じて対処する。提案手法では,同じモデルサイズでの精度の低下(約20 %)を許容すると,視覚変換器はテスト時に任意の層実行順序に適応することができる。我々は、トレーニングされたモデルの特徴表現と、推論中の位置に基づいて各レイヤがモデル予測にどのように貢献するかを分析する。分析の結果,ネットワークにおけるレイヤの位置に応じて,レイヤが異なるコントリビューションを学習できることが判明した。最後に、テスト時にモデルを階層化して、そのパフォーマンスが優雅に低下していることに気付きます。コードはhttps://github.com/matfrei/layershuffle.comで公開されている。

関連論文リスト

Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
How Do Training Methods Influence the Utilization of Vision Models? [23.41975772383921]
すべての学習可能なパラメータが、ニューラルネットワークの決定関数に等しく寄与するわけではない。アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考する。本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
論文参考訳（メタデータ） (2024-10-18T13:54:46Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文参考訳（メタデータ） (2023-07-10T06:44:47Z)
Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。与えられた層における学習された表現は拡散冗長性を示す。我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文参考訳（メタデータ） (2023-05-31T21:00:50Z)
Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。 EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文参考訳（メタデータ） (2022-11-30T04:23:12Z)
Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文参考訳（メタデータ） (2022-02-03T00:05:08Z)
HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文参考訳（メタデータ） (2022-01-11T20:15:35Z)
Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文参考訳（メタデータ） (2021-12-30T16:07:59Z)
STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2021-07-15T02:53:11Z)
Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文参考訳（メタデータ） (2021-06-16T15:57:51Z)
Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文参考訳（メタデータ） (2021-04-08T08:21:59Z)
MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文参考訳（メタデータ） (2021-03-30T09:33:38Z)
Auto-tuning of Deep Neural Networks by Conflicting Layer Removal [0.0]
トレーニングモデルのテスト精度を低下させる層を識別する新しい手法を提案する。矛盾する層は、トレーニングの開始時に早期に検出される。訓練された残存ネットワークのレイヤの約60%が、アーキテクチャから完全に取り除かれることを示しています。
論文参考訳（メタデータ） (2021-03-07T11:51:55Z)
IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文参考訳（メタデータ） (2021-03-05T03:44:42Z)
Bayesian Nested Neural Networks for Uncertainty Calibration and Adaptive Compression [40.35734017517066]
ネストネットワーク(Nested Network)またはスリムブルネットワーク(Slimmable Network)は、テスト期間中にアーキテクチャを即座に調整できるニューラルネットワークである。最近の研究は、トレーニング中に重要なレイヤのノードを順序付けできる"ネストされたドロップアウト"層に焦点を当てている。
論文参考訳（メタデータ） (2021-01-27T12:34:58Z)
Reusing Trained Layers of Convolutional Neural Networks to Shorten Hyperparameters Tuning Time [1.160208922584163]
本稿では,この過程を短縮するために,異なるトレーニングで隠蔽層(畳み込み層)の重みを再利用する提案について述べる。実験では、再使用時のトレーニング時間と、畳み込みレイヤの再使用時のバリデーション損失を比較した。彼らはこの戦略がトレーニング時間を短縮し、その結果のニューラルネットワークの精度も向上することを確認した。
論文参考訳（メタデータ） (2020-06-16T11:39:39Z)
Fitting the Search Space of Weight-sharing NAS with Graph Convolutional Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文参考訳（メタデータ） (2020-04-17T19:12:39Z)
Novelty Detection via Non-Adversarial Generative Network [47.375591404354765]
新しいデコーダ-エンコーダフレームワークが,新規検出タスクのために提案されている。非敵対的な枠組みの下では、潜伏空間と画像再構成空間の両方が共同最適化されている。我々のモデルは、最先端のノベルティ検出器よりも明らかな優位性を持ち、データセットの最先端の結果を達成する。
論文参考訳（メタデータ） (2020-02-03T01:05:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。