論文の概要: Residual Shuffle-Exchange Networks for Fast Processing of Long Sequences
- arxiv url: http://arxiv.org/abs/2004.04662v4
- Date: Fri, 15 Jan 2021 00:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:42:13.969314
- Title: Residual Shuffle-Exchange Networks for Fast Processing of Long Sequences
- Title(参考訳): 長い系列の高速処理のための残差シャッフル交換ネットワーク
- Authors: Andis Draguns, Em\=ils Ozoli\c{n}\v{s}, Agris \v{S}ostaks, Mat\=iss
Apinis, K\=arlis Freivalds
- Abstract要約: 本稿では,GELUとレイヤ正規化を用いた残差ネットワークに基づくShuffle-Exchangeネットワークの簡易かつ軽量なバージョンを提案する。
提案したアーキテクチャは, より長いシーケンスにスケールするだけでなく, より高速に収束し, 精度も向上する。
LAMBADA言語モデリングタスクのShuffle-Exchangeネットワークを超越し、MusicNetデータセットの最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 3.8848561367220276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention is a commonly used mechanism in sequence processing, but it is of
O(n^2) complexity which prevents its application to long sequences. The
recently introduced neural Shuffle-Exchange network offers a
computation-efficient alternative, enabling the modelling of long-range
dependencies in O(n log n) time. The model, however, is quite complex,
involving a sophisticated gating mechanism derived from the Gated Recurrent
Unit. In this paper, we present a simple and lightweight variant of the
Shuffle-Exchange network, which is based on a residual network employing GELU
and Layer Normalization. The proposed architecture not only scales to longer
sequences but also converges faster and provides better accuracy. It surpasses
the Shuffle-Exchange network on the LAMBADA language modelling task and
achieves state-of-the-art performance on the MusicNet dataset for music
transcription while being efficient in the number of parameters. We show how to
combine the improved Shuffle-Exchange network with convolutional layers,
establishing it as a useful building block in long sequence processing
applications.
- Abstract(参考訳): 注意はシーケンス処理で一般的に使われるメカニズムであるが、o(n^2) の複雑さから長いシーケンスへの応用を妨げている。
最近導入されたNeural Shuffle-Exchangeネットワークは計算効率の良い代替手段を提供し、O(n log n)時間における長距離依存関係のモデリングを可能にする。
しかし、モデルは非常に複雑で、Gated Recurrent Unitから派生した洗練されたゲーティング機構を含んでいる。
本稿では,GELUとレイヤ正規化を用いた残差ネットワークに基づくShuffle-Exchangeネットワークの簡易かつ軽量なバージョンを提案する。
提案したアーキテクチャは,より長いシーケンスにスケールするだけでなく,より高速に収束し,精度も向上する。
LAMBADA言語モデリングタスクにおけるShuffle-Exchangeネットワークを超越し、パラメータ数を効率よくしながら、MusicNetデータセット上で最先端のパフォーマンスを実現する。
改良されたシャッフル交換ネットワークと畳み込み層を組み合わせる方法を示し,長いシーケンス処理アプリケーションにおいて有用なビルディングブロックとして確立する。
関連論文リスト
- LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。
我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。
本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文 参考訳(メタデータ) (2023-05-02T17:50:54Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - PoNet: Pooling Network for Efficient Token Mixing in Long Sequences [34.657602765639375]
本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。
Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、競合する精度を実現している。
論文 参考訳(メタデータ) (2021-10-06T01:07:54Z) - Oscillatory Fourier Neural Network: A Compact and Efficient Architecture
for Sequential Processing [16.69710555668727]
本稿では,コサイン活性化と時系列処理のための時間変化成分を有する新しいニューロンモデルを提案する。
提案したニューロンは、スペクトル領域に逐次入力を投影するための効率的なビルディングブロックを提供する。
IMDBデータセットの感情分析に提案されたモデルを適用すると、5時間以内のテスト精度は89.4%に達する。
論文 参考訳(メタデータ) (2021-09-14T19:08:07Z) - ShuffleBlock: Shuffle to Regularize Deep Convolutional Neural Networks [35.67192058479252]
本稿では,ディープ畳み込みネットワークにおける正規化手法としてのチャネルシャッフルの動作について検討する。
トレーニング中のチャネルのランダムシャッフルは性能を大幅に低下させるが、小さなパッチをランダムにシャッフルすると性能が大幅に向上することを示した。
ShuffleBlockモジュールは実装が容易で、CIFARとImageNetデータセットの画像分類タスクにおいて、いくつかのベースラインネットワークの性能を改善している。
論文 参考訳(メタデータ) (2021-06-17T10:23:00Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。