論文の概要: Sparse Modular Activation for Efficient Sequence Modeling
- arxiv url: http://arxiv.org/abs/2306.11197v4
- Date: Sat, 4 Nov 2023 21:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:06:58.437506
- Title: Sparse Modular Activation for Efficient Sequence Modeling
- Title(参考訳): 効率的なシーケンスモデリングのためのスパースモジュラーアクティベーション
- Authors: Liliang Ren, Yang Liu, Shuohang Wang, Yichong Xu, Chenguang Zhu,
ChengXiang Zhai
- Abstract要約: 線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
- 参考スコア(独自算出の注目度): 94.11125833685583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent hybrid models combining Linear State Space Models (SSMs) with
self-attention mechanisms have demonstrated impressive results across a range
of sequence modeling tasks. However, current approaches apply attention modules
statically and uniformly to all elements in the input sequences, leading to
sub-optimal quality-efficiency trade-offs. To address this limitation, we
introduce Sparse Modular Activation (SMA), a general mechanism enabling neural
networks to sparsely and dynamically activate sub-modules for sequence elements
in a differentiable manner. Through allowing each element to skip non-activated
sub-modules, SMA reduces computation and memory consumption of neural networks
at both training and inference stages. To validate the effectiveness of SMA on
sequence modeling, we design a novel neural architecture, SeqBoat, which
employs SMA to sparsely activate a Gated Attention Unit (GAU) based on the
state representations learned from an SSM. By constraining the GAU to only
conduct local attention on the activated inputs, SeqBoat can achieve linear
inference complexity with theoretically infinite attention span, and provide
substantially better quality-efficiency trade-off than the chunking-based
models. With experiments on a wide range of tasks, including long sequence
modeling, speech classification and language modeling, SeqBoat brings new
state-of-the-art results among hybrid models with linear complexity, and
reveals the amount of attention needed for each task through the learned sparse
activation patterns. Our code is publicly available at
https://github.com/renll/SeqBoat.
- Abstract(参考訳): 線形状態空間モデル(SSM)と自己アテンション機構を組み合わせた最近のハイブリッドモデルは、様々なシーケンスモデリングタスクにおいて印象的な結果を示した。
しかし、現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用することで、準最適品質効率のトレードオフにつながる。
この制限に対処するために,sparse modular activation(sma)という,ニューラルネットワークによるシーケンス要素のサブモジュールのスパースおよび動的アクティベートを可能にする汎用機構を導入する。
各要素が非アクティブなサブモジュールをスキップできるようにすることで、SMAはトレーニングと推論の両方の段階でニューラルネットワークの計算とメモリ消費を減らす。
シーケンスモデリングにおけるSMAの有効性を検証するため,SMAを用いた新しいニューラルネットワークSeqBoatを設計し,SSMから学んだ状態表現に基づいてGAU(Gated Attention Unit)を疎結合に活性化する。
GAUが活性化された入力にのみ局所的な注意を集中させることで、セックボートは理論上無限の注意範囲を持つ線形推論複雑性を達成でき、チャンキングベースモデルよりもはるかに優れた品質と効率のトレードオフを提供できる。
長いシーケンスモデリング、音声分類、言語モデリングを含む幅広いタスクの実験により、seqboatは線形複雑性を持つハイブリッドモデル間で新たな最先端の結果をもたらし、学習されたスパースアクティベーションパターンを通じて各タスクに必要な注意の量を明らかにする。
私たちのコードはhttps://github.com/renll/SeqBoat.comで公開されています。
関連論文リスト
- Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning [38.09011520275557]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。
本稿では、ニューラルネットワークの動作をCILに適応させるニューラルネットワークユニットダイナミクスを調整し、新しい種類のコネクショナリストモデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:47:03Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - The impact of memory on learning sequence-to-sequence tasks [6.603326895384289]
自然言語処理におけるニューラルネットワークの最近の成功は、シーケンシャル・ツー・シーケンス(seq2seq)タスクに新たな注目を集めている。
本稿では,シークエンスにおけるメモリの次数,すなわち非マルコビアン性に対する明示的な制御の利点を生かしたSeq2seqタスクのモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T14:57:33Z) - Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。
Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文 参考訳(メタデータ) (2021-08-26T08:05:07Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。