Fugu-MT 論文翻訳(概要): Accelerating Toeplitz Neural Network with Constant-time Inference Complexity

論文の概要: Accelerating Toeplitz Neural Network with Constant-time Inference Complexity

arxiv url: http://arxiv.org/abs/2311.08756v1
Date: Wed, 15 Nov 2023 07:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 16:46:00.129973
Title: Accelerating Toeplitz Neural Network with Constant-time Inference Complexity
Title（参考訳）: 定常時間推定複雑性を持つtoeplitzニューラルネットワークの高速化
Authors: Zhen Qin, Yiran Zhong
Abstract要約: Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
参考スコア（独自算出の注目度）: 21.88774274472737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Toeplitz Neural Networks (TNNs) have exhibited outstanding performance in various sequence modeling tasks. They outperform commonly used Transformer-based models while benefiting from log-linear space-time complexities. On the other hand, State Space Models (SSMs) achieve lower performance than TNNs in language modeling but offer the advantage of constant inference complexity. In this paper, we aim to combine the strengths of TNNs and SSMs by converting TNNs to SSMs during inference, thereby enabling TNNs to achieve the same constant inference complexities as SSMs. To accomplish this, we formulate the conversion process as an optimization problem and provide a closed-form solution. We demonstrate how to transform the target equation into a Vandermonde linear system problem, which can be efficiently solved using the Discrete Fourier Transform (DFT). Notably, our method requires no training and maintains numerical stability. It can be also applied to any LongConv-based model. To assess its effectiveness, we conduct extensive experiments on language modeling tasks across various settings. Additionally, we compare our method to other gradient-descent solutions, highlighting the superior numerical stability of our approach. The source code is available at https://github.com/OpenNLPLab/ETSC-Exact-Toeplitz-to-SSM-Conversion.
Abstract（参考訳）: Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れている。一方、状態空間モデル(SSM)は、言語モデリングにおいてTNNよりも低い性能を達成するが、一定の推論複雑性の利点を提供する。本稿では,tnnをssmに変換することで,tnnとssmsの強みを組み合わせることにより,tnnがssmsと同じ定数推論の複雑さを実現することを目的とする。これを実現するため、変換プロセスを最適化問題として定式化し、閉形式解を提供する。本稿では,対象方程式を離散フーリエ変換(DFT)を用いて効率的に解けるVandermonde線形系問題に変換する方法を示す。特に,本手法ではトレーニングを必要とせず,数値安定性を維持している。任意のLongConvベースのモデルにも適用可能だ。その効果を評価するために、様々な設定で言語モデリングタスクを広範囲に実験する。さらに,本手法を他の勾配差解と比較し,より優れた数値安定性を示す。ソースコードはhttps://github.com/OpenNLPLab/ETSC-Exact-Toeplitz-to-SSM-Conversionで公開されている。

関連論文リスト

Training Neural ODEs Using Fully Discretized Simultaneous Optimization [2.290491821371513]
ニューラルネットワークの正規微分方程式(Neural ODEs)の学習には、各エポックにおける微分方程式の解法が必要であるため、計算コストが高い。特に、コロケーションに基づく完全に離散化された定式化を採用し、大規模な非線形最適化にIPOPT-aソルバを用いる。この結果から,(コロケーションをベースとした)同時ニューラルODE訓練パイプラインの可能性が示唆された。
論文参考訳（メタデータ） (2025-02-21T18:10:26Z)
Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approximations [0.0]
変分オートエンコーダ(VAE)はコンパクトな潜在表現を学習するための強力なフレームワークである。ニューラルネットワークは過渡系力学の学習において優れている。この研究は両者の強みを組み合わせることで、高速な代理モデルと調整可能な複雑さを生み出す。
論文参考訳（メタデータ） (2024-10-14T05:45:52Z)
Scalable Mechanistic Neural Networks for Differential Equations and Machine Learning [52.28945097811129]
長い時間的シーケンスを含む科学機械学習応用のための拡張ニューラルネットワークフレームワークを提案する。計算時間と空間複雑度はそれぞれ、列長に関して立方体と二次体から線形へと減少する。大規模な実験により、S-MNNは元のMNNと精度で一致し、計算資源を大幅に削減した。
論文参考訳（メタデータ） (2024-10-08T14:27:28Z)
A domain decomposition-based autoregressive deep learning model for unsteady and nonlinear partial differential equations [2.7755345520127936]
非定常・非線形偏微分方程式(PDE)を正確にモデル化するためのドメイン分割型ディープラーニング(DL)フレームワークCoMLSimを提案する。このフレームワークは、(a)畳み込みニューラルネットワーク(CNN)ベースのオートエンコーダアーキテクチャと(b)完全に接続された層で構成される自己回帰モデルという、2つの重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (2024-08-26T17:50:47Z)
An Attempt to Devise a Pairwise Ising-Type Maximum Entropy Model Integrated Cost Function for Optimizing SNN Deployment [0.0]
スパイクニューラルネットワーク(SNN)は、生物学的ニューロンのスパイク動作をエミュレートし、通常、分散メモリニューロモルフィックハードウェアにデプロイされる。 We model SNN dynamics using a Ising-type pairwise interaction framework, bridging micro neuron interaction with macroscopic network behavior。我々は、sPyNNakerニューロモルフィックプラットフォーム上に配置された2つのSNNに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-07-09T16:33:43Z)
Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文参考訳（メタデータ） (2024-05-22T17:23:15Z)
Learning Long Sequences in Spiking Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)は、エネルギー効率の高い計算を可能にするために、脳からインスピレーションを得ている。トランスフォーマーの効率的な代替品に対する近年の関心は、状態空間モデル(SSM)と呼ばれる最先端の繰り返しアーキテクチャの台頭をもたらした。
論文参考訳（メタデータ） (2023-12-14T13:30:27Z)
On Tuning Neural ODE for Stability, Consistency and Faster Convergence [0.0]
本研究では,Nesterov'sAccelerated gradient (NAG) を用いたODE-solverを提案する。我々は、より速くトレーニングし、より優れた、または同等のパフォーマンスをニューラルダイオードに対して達成し、アプローチの有効性を実証的に実証した。
論文参考訳（メタデータ） (2023-12-04T06:18:10Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Comparative Analysis of Interval Reachability for Robust Implicit and Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。 INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文参考訳（メタデータ） (2022-04-01T03:31:27Z)
Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。提案されたSIDNNは、幅広いOPFスキームと互換性がある。他のLearning-to-OPFスキームとシームレスに統合できる。
論文参考訳（メタデータ） (2021-03-27T00:45:23Z)
DiffRNN: Differential Verification of Recurrent Neural Networks [3.4423518864863154]
リカレントニューラルネットワーク(RNN)は、画像処理、データ分類、音声認識、自律システムにおけるコントローラなど、さまざまなアプリケーションで人気を集めている。構造的に類似した2つのニューラルネットワークの等価性を証明するための最初の差分検証手法であるDIFFRNNを提案する。各種ベンチマークにおいて本手法の有効性を実証し,DIFFRNNがPOPQORNのような最先端の検証ツールより優れていることを示す。
論文参考訳（メタデータ） (2020-07-20T14:14:35Z)
Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文参考訳（メタデータ） (2020-06-08T09:53:35Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。