論文の概要: LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order
- arxiv url: http://arxiv.org/abs/2407.04513v1
- Date: Fri, 5 Jul 2024 13:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:20:52.761952
- Title: LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order
- Title(参考訳): LayerShuffle:レイヤ実行順序のランダム化による視覚変換器のロバスト性向上
- Authors: Matthias Freiberger, Peter Kun, Anders Sundnes Løvlie, Sebastian Risi,
- Abstract要約: 視覚変換器はテスト時に任意の層の実行順序に適応可能であることを示す。
また、トレーニングされたモデル同士をランダムにマージすることで、機能的な「フランケンシュタイン」モデルが得られることもわかりました。
- 参考スコア(独自算出の注目度): 10.362659730151591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their architecture and how they are trained, artificial neural networks are typically not robust toward pruning, replacing, or shuffling layers at test time. However, such properties would be desirable for different applications, such as distributed neural network architectures where the order of execution cannot be guaranteed or parts of the network can fail during inference. In this work, we address these issues through a number of proposed training approaches for vision transformers whose most important component is randomizing the execution order of attention modules at training time. We show that with our proposed approaches, vision transformers are indeed capable to adapt to arbitrary layer execution orders at test time assuming one tolerates a reduction (about 20\%) in accuracy at the same model size. We also find that our trained models can be randomly merged with each other resulting in functional ("Frankenstein") models without loss of performance compared to the source models. Finally, we layer-prune our models at test time and find that their performance declines gracefully.
- Abstract(参考訳): アーキテクチャとトレーニング方法のため、人工知能のニューラルネットワークは通常、テスト時にレイヤの切断、置換、シャッフルに対して堅牢ではない。
しかしながら、このような特性は、実行の順序を保証できない分散ニューラルネットワークアーキテクチャや、推論中にネットワークの一部が失敗する可能性のある分散ニューラルネットワークアーキテクチャなど、さまざまなアプリケーションに望ましい。
本研究では,これらの課題に対して,学習時に注目モジュールの実行順序をランダム化する視覚変換器のトレーニング手法を提案する。
提案手法を用いることで、同じモデルサイズで精度の低下(約20倍)を許容すると、視覚変換器はテスト時に任意の層実行順序に適応できることを示す。
また、トレーニングされたモデルをランダムにマージすることで、ソースモデルと比較して性能が失われることなく機能的な(フランケンシュタイン)モデルが得られることもわかりました。
最後に、テスト時にモデルを階層化して、そのパフォーマンスが優雅に低下していることに気付きます。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z) - MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。
メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。
この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-30T09:33:38Z) - Novelty Detection via Non-Adversarial Generative Network [47.375591404354765]
新しいデコーダ-エンコーダフレームワークが,新規検出タスクのために提案されている。
非敵対的な枠組みの下では、潜伏空間と画像再構成空間の両方が共同最適化されている。
我々のモデルは、最先端のノベルティ検出器よりも明らかな優位性を持ち、データセットの最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-02-03T01:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。