Fugu-MT 論文翻訳(概要): Toeplitz Neural Network for Sequence Modeling

論文の概要: Toeplitz Neural Network for Sequence Modeling

arxiv url: http://arxiv.org/abs/2305.04749v1
Date: Mon, 8 May 2023 14:49:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 13:58:41.753144
Title: Toeplitz Neural Network for Sequence Modeling
Title（参考訳）: シーケンスモデリングのためのtoeplitzニューラルネットワーク
Authors: Zhen Qin, Xiaodong Han, Weixuan Sun, Bowen He, Dong Li, Dongxu Li, Yuchao Dai, Lingpeng Kong, Yiran Zhong
Abstract要約: Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。 512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
参考スコア（独自算出の注目度）: 46.04964190407727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequence modeling has important applications in natural language processing and computer vision. Recently, the transformer-based models have shown strong performance on various sequence modeling tasks, which rely on attention to capture pairwise token relations, and position embedding to inject positional information. While showing good performance, the transformer models are inefficient to scale to long input sequences, mainly due to the quadratic space-time complexity of attention. To overcome this inefficiency, we propose to model sequences with a relative position encoded Toeplitz matrix and use a Toeplitz matrix-vector production trick to reduce the space-time complexity of the sequence modeling to log linear. A lightweight sub-network called relative position encoder is proposed to generate relative position coefficients with a fixed budget of parameters, enabling the proposed Toeplitz neural network to deal with varying sequence lengths. In addition, despite being trained on 512-token sequences, our model can extrapolate input sequence length up to 14K tokens in inference with consistent performance. Extensive experiments on autoregressive and bidirectional language modeling, image modeling, and the challenging Long-Range Arena benchmark show that our method achieves better performance than its competitors in most downstream tasks while being significantly faster. The code is available at https://github.com/OpenNLPLab/Tnn.
Abstract（参考訳）: シーケンスモデリングは自然言語処理やコンピュータビジョンにおいて重要な応用である。近年,変換器をベースとしたモデルでは,一対のトークン関係を捕捉し,位置情報を注入する位置埋め込みに注意を要し,様々なシーケンスモデリングタスクに強い性能を示している。優れた性能を示す一方で、トランスモデルは、主に注意の2次空間時間複雑さのために、長い入力シーケンスにスケールする非効率である。この非効率を克服するために,toeplitz行列をエンコードした相対的な配列をモデル化し,toeplitz行列-ベクトル生成トリックを用いてシーケンスモデリングの時間的複雑さを削減し,線形にログする。パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案し、提案したToeplitzニューラルネットワークが様々なシーケンス長に対応できるようにする。さらに,512個のトークン列をトレーニングしても,最大14Kトークンまでの入力シーケンス長を一貫した性能で推定することができる。自己回帰的および双方向の言語モデリング、画像モデリング、そして挑戦的な長距離アリーナベンチマークに関する広範囲な実験により、この手法は、多くの下流タスクにおける競合より優れた性能を達成できながら、はるかに高速であることが示された。コードはhttps://github.com/opennlplab/tnnで入手できる。

関連論文リスト

Fast Autoregressive Video Generation with Diagonal Decoding [34.90521536645348]
DiagD (Diagonal Decoding) は、自己回帰事前学習モデルのためのトレーニング不要な推論高速化アルゴリズムである。本手法は,空間的時間的トークングリッド内の対角経路に沿ってトークンを生成し,各フレーム内で並列デコードを可能にする。 DiagDは、単純でシーケンシャルなデコーディングに比べて最大10倍のスピードアップを達成すると同時に、同等の視覚的忠実さを維持している。
論文参考訳（メタデータ） (2025-03-18T09:42:55Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Efficient Time Series Processing for Transformers and State-Space Models through Token Merging [44.27818172708914]
トークンマージにより、視覚変換器アーキテクチャのスループットが大幅に向上することが示されている。局所的マージとは、局所的な領域内でトークンを選択的に結合する、ドメイン固有のトークンマージアルゴリズムである。最近提案されたクロノス基礎モデルでは, わずかな精度劣化のみを伴い, 5400%の加速を実現している。
論文参考訳（メタデータ） (2024-05-28T08:28:18Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-01T18:01:34Z)
Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文参考訳（メタデータ） (2023-05-02T17:50:54Z)
Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。 COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文参考訳（メタデータ） (2023-02-13T10:34:51Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Learning to Encode Position for Transformer with Continuous Dynamical Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文参考訳（メタデータ） (2020-03-13T00:41:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。