論文の概要: Accelerating Toeplitz Neural Network with Constant-time Inference
Complexity
- arxiv url: http://arxiv.org/abs/2311.08756v1
- Date: Wed, 15 Nov 2023 07:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:46:00.129973
- Title: Accelerating Toeplitz Neural Network with Constant-time Inference
Complexity
- Title(参考訳): 定常時間推定複雑性を持つtoeplitzニューラルネットワークの高速化
- Authors: Zhen Qin, Yiran Zhong
- Abstract要約: Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。
本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
- 参考スコア(独自算出の注目度): 21.88774274472737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Toeplitz Neural Networks (TNNs) have exhibited outstanding performance in
various sequence modeling tasks. They outperform commonly used
Transformer-based models while benefiting from log-linear space-time
complexities. On the other hand, State Space Models (SSMs) achieve lower
performance than TNNs in language modeling but offer the advantage of constant
inference complexity. In this paper, we aim to combine the strengths of TNNs
and SSMs by converting TNNs to SSMs during inference, thereby enabling TNNs to
achieve the same constant inference complexities as SSMs. To accomplish this,
we formulate the conversion process as an optimization problem and provide a
closed-form solution. We demonstrate how to transform the target equation into
a Vandermonde linear system problem, which can be efficiently solved using the
Discrete Fourier Transform (DFT). Notably, our method requires no training and
maintains numerical stability. It can be also applied to any LongConv-based
model. To assess its effectiveness, we conduct extensive experiments on
language modeling tasks across various settings. Additionally, we compare our
method to other gradient-descent solutions, highlighting the superior numerical
stability of our approach. The source code is available at
https://github.com/OpenNLPLab/ETSC-Exact-Toeplitz-to-SSM-Conversion.
- Abstract(参考訳): Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れている。
一方、状態空間モデル(SSM)は、言語モデリングにおいてTNNよりも低い性能を達成するが、一定の推論複雑性の利点を提供する。
本稿では,tnnをssmに変換することで,tnnとssmsの強みを組み合わせることにより,tnnがssmsと同じ定数推論の複雑さを実現することを目的とする。
これを実現するため、変換プロセスを最適化問題として定式化し、閉形式解を提供する。
本稿では,対象方程式を離散フーリエ変換(DFT)を用いて効率的に解けるVandermonde線形系問題に変換する方法を示す。
特に,本手法ではトレーニングを必要とせず,数値安定性を維持している。
任意のLongConvベースのモデルにも適用可能だ。
その効果を評価するために、様々な設定で言語モデリングタスクを広範囲に実験する。
さらに,本手法を他の勾配差解と比較し,より優れた数値安定性を示す。
ソースコードはhttps://github.com/OpenNLPLab/ETSC-Exact-Toeplitz-to-SSM-Conversionで公開されている。
関連論文リスト
- Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approximations [0.0]
変分オートエンコーダ(VAE)はコンパクトな潜在表現を学習するための強力なフレームワークである。
ニューラルネットワークは過渡系力学の学習において優れている。
この研究は両者の強みを組み合わせることで、高速な代理モデルと調整可能な複雑さを生み出す。
論文 参考訳(メタデータ) (2024-10-14T05:45:52Z) - A domain decomposition-based autoregressive deep learning model for unsteady and nonlinear partial differential equations [2.7755345520127936]
非定常・非線形偏微分方程式(PDE)を正確にモデル化するためのドメイン分割型ディープラーニング(DL)フレームワークCoMLSimを提案する。
このフレームワークは、(a)畳み込みニューラルネットワーク(CNN)ベースのオートエンコーダアーキテクチャと(b)完全に接続された層で構成される自己回帰モデルという、2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-08-26T17:50:47Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Learning Long Sequences in Spiking Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)は、エネルギー効率の高い計算を可能にするために、脳からインスピレーションを得ている。
トランスフォーマーの効率的な代替品に対する近年の関心は、状態空間モデル(SSM)と呼ばれる最先端の繰り返しアーキテクチャの台頭をもたらした。
論文 参考訳(メタデータ) (2023-12-14T13:30:27Z) - On Tuning Neural ODE for Stability, Consistency and Faster Convergence [0.0]
本研究では,Nesterov'sAccelerated gradient (NAG) を用いたODE-solverを提案する。
我々は、より速くトレーニングし、より優れた、または同等のパフォーマンスをニューラルダイオードに対して達成し、アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-04T06:18:10Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z) - DiffRNN: Differential Verification of Recurrent Neural Networks [3.4423518864863154]
リカレントニューラルネットワーク(RNN)は、画像処理、データ分類、音声認識、自律システムにおけるコントローラなど、さまざまなアプリケーションで人気を集めている。
構造的に類似した2つのニューラルネットワークの等価性を証明するための最初の差分検証手法であるDIFFRNNを提案する。
各種ベンチマークにおいて本手法の有効性を実証し,DIFFRNNがPOPQORNのような最先端の検証ツールより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-20T14:14:35Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。