論文の概要: What's Hidden in a One-layer Randomly Weighted Transformer?
- arxiv url: http://arxiv.org/abs/2109.03939v1
- Date: Wed, 8 Sep 2021 21:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:35:20.758855
- Title: What's Hidden in a One-layer Randomly Weighted Transformer?
- Title(参考訳): ランダムに重なったトランスに何が隠されているのか?
- Authors: Sheng Shen, Zhewei Yao, Douwe Kiela, Kurt Keutzer and Michael W.
Mahoney
- Abstract要約: 1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
- 参考スコア(独自算出の注目度): 100.98342094831334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that, hidden within one-layer randomly weighted neural
networks, there exist subnetworks that can achieve impressive performance,
without ever modifying the weight initializations, on machine translation
tasks. To find subnetworks for one-layer randomly weighted neural networks, we
apply different binary masks to the same weight matrix to generate different
layers. Hidden within a one-layer randomly weighted Transformer, we find that
subnetworks that can achieve 29.45/17.29 BLEU on IWSLT14/WMT14. Using a fixed
pre-trained embedding layer, the previously found subnetworks are smaller than,
but can match 98%/92% (34.14/25.24 BLEU) of the performance of, a trained
Transformer small/base on IWSLT14/WMT14. Furthermore, we demonstrate the
effectiveness of larger and deeper transformers in this setting, as well as the
impact of different initialization methods. We released the source code at
https://github.com/sIncerass/one_layer_lottery_ticket.
- Abstract(参考訳): 1層にランダムに重み付けされたニューラルネットワーク内に隠されたサブネットワークは、機械翻訳タスクにおいて重み付け初期化を変更することなく、優れたパフォーマンスを達成することができる。
一層重み付けニューラルネットワークのサブネットワークを見つけるために、同じ重み行列に異なる二層マスクを適用して異なる層を生成する。
IWSLT14/WMT14上で29.45/17.29BLEUを達成できるサブネットが1層にランダムに重み付けされたトランスフォーマー内に隠れている。
固定された事前学習された埋め込み層を使用することで、以前に発見されたサブネットワークは98%/92% (34.14/25.24 bleu) の性能と一致し、iwslt14/wmt14上の訓練されたトランスフォーマー/ベースである。
さらに、この設定において、より大きくより深い変換器の有効性と、異なる初期化方法の影響を実証する。
ソースコードはhttps://github.com/ sincerass/one_layer_lottery_ticketで公開しました。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Foldable SuperNets: Scalable Merging of Transformers with Different Initializations and Tasks [31.962161747846114]
Foldable SuperNet Merge (FS-Merge) は単純でデータ効率が良く、様々な幅のモデルをマージできる。
FS-Mergeは既存のメソッドを一貫して上回り、特に限られたデータシナリオにおいてSOTA結果を達成する。
論文 参考訳(メタデータ) (2024-10-02T12:34:32Z) - Transformers are Multi-State RNNs [25.99353771107789]
我々はデコーダのみの変換器を非有界マルチステートRNNとして概念化できることを示す。
トランスフォーマーは、隠された状態のサイズを固定することで、$textitbounded$ multi-state RNNに変換することができる。
トレーニング不要な新しい圧縮ポリシー - $textbfT$oken $textbfO$mission $textbfV$ia $textbfA$ttention (TOVA)を導入します。
論文 参考訳(メタデータ) (2024-01-11T18:35:26Z) - Toward a Deeper Understanding: RetNet Viewed through Convolution [25.8904146140577]
Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
論文 参考訳(メタデータ) (2023-09-11T10:54:22Z) - Spike-driven Transformer [31.931401322707995]
スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動(スパイク駆動)パラダイムにより、エネルギー効率のよいディープラーニングオプションを提供する。
本稿では,4つの特性を持つスパイク駆動トランスフォーマーにより,スパイク駆動のパラダイムをTransformerに組み込む。
Spike駆動トランスフォーマーはImageNet-1K上で77.1%のTop-1精度を達成でき、これはSNNフィールドにおける最先端の結果である。
論文 参考訳(メタデータ) (2023-07-04T13:00:18Z) - Random Weights Networks Work as Loss Prior Constraint for Image
Restoration [50.80507007507757]
「画像復元の優先制約としてランダムウェイトネットワークを機能させることができる」という信念を提示する。」
我々の信念は、計算コストのトレーニングやテストなしに、既存のネットワークに直接挿入することができる。
強調しておきたいのは、損失関数の領域を刺激し、現在無視されている状態を保存することです。
論文 参考訳(メタデータ) (2023-03-29T03:43:51Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Incremental Task Learning with Incremental Rank Updates [20.725181015069435]
低ランク因数分解に基づく新しい漸進的タスク学習フレームワークを提案する。
提案手法は,現在の最先端手法よりも,精度と忘れやすさの点で優れていることを示す。
論文 参考訳(メタデータ) (2022-07-19T05:21:14Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。