論文の概要: Sparse Modular Activation for Efficient Sequence Modeling
- arxiv url: http://arxiv.org/abs/2306.11197v1
- Date: Mon, 19 Jun 2023 23:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 16:11:19.540358
- Title: Sparse Modular Activation for Efficient Sequence Modeling
- Title(参考訳): 効率的なシーケンスモデリングのためのスパースモジュラーアクティベーション
- Authors: Liliang Ren, Yang Liu, Shuohang Wang, Yichong Xu, Chenguang Zhu,
ChengXiang Zhai
- Abstract要約: 言語モデリングや機械翻訳といったより包括的なタスクでは、自己注意に基づくモデルは依然として線形状態空間モデル(SSM)よりも優れています。
本研究では,ニューラルネットワークが配列要素のサブモジュールを疎に活性化する機構であるスパースモジュール活性化(SMA)を紹介する。
本稿では,SMAを用いて,SSMから学んだ状態表現に基づいて,GAU(Gated Attention Unit)を疎に活性化するSeqBoatを紹介する。
- 参考スコア(独自算出の注目度): 76.58187640778146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear State Space Models (SSMs) have demonstrated strong performance in a
variety of sequence modeling tasks due to their efficient encoding of the
recurrent structure. However, in more comprehensive tasks like language
modeling and machine translation, self-attention-based models still outperform
SSMs. Hybrid models employing both SSM and self-attention generally show
promising performance, but current approaches apply attention modules
statically and uniformly to all elements in the input sequences, leading to
sub-optimal quality-efficiency trade-offs. In this work, we introduce Sparse
Modular Activation (SMA), a general mechanism enabling neural networks to
sparsely and dynamically activate sub-modules for sequence elements in a
differentiable manner. Through allowing each element to skip non-activated
sub-modules, SMA reduces computation and memory consumption at both training
and inference stages of sequence modeling. As a specific instantiation of SMA,
we design a novel neural architecture, SeqBoat, which employs SMA to sparsely
activate a Gated Attention Unit (GAU) based on the state representations
learned from an SSM. By constraining the GAU to only conduct local attention on
the activated inputs, SeqBoat can achieve linear inference complexity with
theoretically infinite attention span, and provide substantially better
quality-efficiency trade-off than the chunking-based models. With experiments
on a wide range of tasks, including language modeling, speech classification
and long-range arena, SeqBoat brings new state-of-the-art results among hybrid
models with linear complexity and reveals the amount of attention needed for
each task through the learned sparse activation patterns.
- Abstract(参考訳): 線形状態空間モデル(SSM)は、繰り返し構造を効率的に符号化するため、様々なシーケンスモデリングタスクにおいて強い性能を示した。
しかし、言語モデリングや機械翻訳といったより包括的なタスクでは、自己注意に基づくモデルは依然としてSSMよりも優れています。
SSMと自己注意の両方を併用したハイブリッドモデルは一般に有望な性能を示すが、現在のアプローチでは、入力シーケンスのすべての要素に対して静的かつ均一に注意モジュールを適用し、準最適品質と効率のトレードオフをもたらす。
本研究では,ニューラルネットワークが配列要素のサブモジュールを分離的かつ動的に動的に活性化する機構であるスパースモジュール活性化(SMA)を紹介する。
各要素が非アクティブなサブモジュールをスキップできるようにすることで、SMAはシーケンスモデリングのトレーニングと推論の段階で計算とメモリ消費を減らす。
SMAの特定のインスタンス化として、SMAを用いて、SSMから学んだ状態表現に基づいて、GAU(Gated Attention Unit)をスパースに活性化する新しいニューラルネットワークSeqBoatを設計する。
GAUが活性化された入力にのみ局所的な注意を集中させることで、セックボートは理論上無限の注意範囲を持つ線形推論複雑性を達成でき、チャンキングベースモデルよりもはるかに優れた品質と効率のトレードオフを提供できる。
言語モデリング、音声分類、長距離アリーナを含む幅広いタスクの実験により、SeqBoatは線形複雑性を持つハイブリッドモデルに新しい最先端の結果をもたらし、学習されたスパースアクティベーションパターンを通じて各タスクに必要な注意の量を明らかにする。
関連論文リスト
- Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning [38.09011520275557]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。
本稿では、ニューラルネットワークの動作をCILに適応させるニューラルネットワークユニットダイナミクスを調整し、新しい種類のコネクショナリストモデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:47:03Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - The impact of memory on learning sequence-to-sequence tasks [6.603326895384289]
自然言語処理におけるニューラルネットワークの最近の成功は、シーケンシャル・ツー・シーケンス(seq2seq)タスクに新たな注目を集めている。
本稿では,シークエンスにおけるメモリの次数,すなわち非マルコビアン性に対する明示的な制御の利点を生かしたSeq2seqタスクのモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T14:57:33Z) - Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。
Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文 参考訳(メタデータ) (2021-08-26T08:05:07Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。