Fugu-MT 論文翻訳(概要): Sparse Modular Activation for Efficient Sequence Modeling

論文の概要: Sparse Modular Activation for Efficient Sequence Modeling

arxiv url: http://arxiv.org/abs/2306.11197v4
Date: Sat, 4 Nov 2023 21:26:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 22:06:58.437506
Title: Sparse Modular Activation for Efficient Sequence Modeling
Title（参考訳）: 効率的なシーケンスモデリングのためのスパースモジュラーアクティベーション
Authors: Liliang Ren, Yang Liu, Shuohang Wang, Yichong Xu, Chenguang Zhu, ChengXiang Zhai
Abstract要約: 線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。 SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
参考スコア（独自算出の注目度）: 94.11125833685583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent hybrid models combining Linear State Space Models (SSMs) with self-attention mechanisms have demonstrated impressive results across a range of sequence modeling tasks. However, current approaches apply attention modules statically and uniformly to all elements in the input sequences, leading to sub-optimal quality-efficiency trade-offs. To address this limitation, we introduce Sparse Modular Activation (SMA), a general mechanism enabling neural networks to sparsely and dynamically activate sub-modules for sequence elements in a differentiable manner. Through allowing each element to skip non-activated sub-modules, SMA reduces computation and memory consumption of neural networks at both training and inference stages. To validate the effectiveness of SMA on sequence modeling, we design a novel neural architecture, SeqBoat, which employs SMA to sparsely activate a Gated Attention Unit (GAU) based on the state representations learned from an SSM. By constraining the GAU to only conduct local attention on the activated inputs, SeqBoat can achieve linear inference complexity with theoretically infinite attention span, and provide substantially better quality-efficiency trade-off than the chunking-based models. With experiments on a wide range of tasks, including long sequence modeling, speech classification and language modeling, SeqBoat brings new state-of-the-art results among hybrid models with linear complexity, and reveals the amount of attention needed for each task through the learned sparse activation patterns. Our code is publicly available at https://github.com/renll/SeqBoat.
Abstract（参考訳）: 線形状態空間モデル(SSM)と自己アテンション機構を組み合わせた最近のハイブリッドモデルは、様々なシーケンスモデリングタスクにおいて印象的な結果を示した。しかし、現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用することで、準最適品質効率のトレードオフにつながる。この制限に対処するために,sparse modular activation(sma)という,ニューラルネットワークによるシーケンス要素のサブモジュールのスパースおよび動的アクティベートを可能にする汎用機構を導入する。各要素が非アクティブなサブモジュールをスキップできるようにすることで、SMAはトレーニングと推論の両方の段階でニューラルネットワークの計算とメモリ消費を減らす。シーケンスモデリングにおけるSMAの有効性を検証するため,SMAを用いた新しいニューラルネットワークSeqBoatを設計し,SSMから学んだ状態表現に基づいてGAU(Gated Attention Unit)を疎結合に活性化する。 GAUが活性化された入力にのみ局所的な注意を集中させることで、セックボートは理論上無限の注意範囲を持つ線形推論複雑性を達成でき、チャンキングベースモデルよりもはるかに優れた品質と効率のトレードオフを提供できる。長いシーケンスモデリング、音声分類、言語モデリングを含む幅広いタスクの実験により、seqboatは線形複雑性を持つハイブリッドモデル間で新たな最先端の結果をもたらし、学習されたスパースアクティベーションパターンを通じて各タスクに必要な注意の量を明らかにする。私たちのコードはhttps://github.com/renll/SeqBoat.comで公開されています。

関連論文リスト

Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
Structured State Space Model Dynamics and Parametrization for Spiking Neural Networks [0.8321953606016751]
多状態スパイクニューロンは、従来のディープラーニングモデルに代わる魅力的な代替手段を提供する。状態空間モデル(SSM)は、スパイキングニューロンのサブスレッショルド状態に類似した線形状態-内在的再発を用いた長いシーケンス処理において優れている。そこで我々は,SSMと2次スパイキングニューロンモデルの間に数学的ブリッジを確立する。
論文参考訳（メタデータ） (2025-06-04T13:54:02Z)
Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-05-17T23:15:17Z)
Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文参考訳（メタデータ） (2024-07-08T17:09:39Z)
Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning [38.09011520275557]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。本稿では、ニューラルネットワークの動作をCILに適応させるニューラルネットワークユニットダイナミクスを調整し、新しい種類のコネクショナリストモデルを提案する。
論文参考訳（メタデータ） (2024-06-04T15:47:03Z)
Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-05-13T07:46:48Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
The impact of memory on learning sequence-to-sequence tasks [6.603326895384289]
自然言語処理におけるニューラルネットワークの最近の成功は、シーケンシャル・ツー・シーケンス(seq2seq)タスクに新たな注目を集めている。本稿では,シークエンスにおけるメモリの次数,すなわち非マルコビアン性に対する明示的な制御の利点を生かしたSeq2seqタスクのモデルを提案する。
論文参考訳（メタデータ） (2022-05-29T14:57:33Z)
Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。 Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文参考訳（メタデータ） (2021-08-26T08:05:07Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Neural Function Modules with Sparse Arguments: A Dynamic Approach to Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文参考訳（メタデータ） (2020-10-15T20:43:17Z)
Incremental Training of a Recurrent Neural Network Exploiting a Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文参考訳（メタデータ） (2020-06-29T08:35:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。