論文の概要: Time-aware Large Kernel Convolutions
- arxiv url: http://arxiv.org/abs/2002.03184v2
- Date: Fri, 19 Jun 2020 01:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:13:11.472087
- Title: Time-aware Large Kernel Convolutions
- Title(参考訳): 時間認識型大規模カーネル畳み込み
- Authors: Vasileios Lioutas, Yuhong Guo
- Abstract要約: Time-Aware Large Kernel (TaLK) Convolutionsは、カーネルの総和の大きさを予測するために学習する新しい適応的畳み込み演算である。
提案手法は, 大規模標準機械翻訳, 抽象要約, 言語モデリングデータセットにおいて評価される。
- 参考スコア(独自算出の注目度): 41.19006428608901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To date, most state-of-the-art sequence modeling architectures use attention
to build generative models for language based tasks. Some of these models use
all the available sequence tokens to generate an attention distribution which
results in time complexity of $O(n^2)$. Alternatively, they utilize depthwise
convolutions with softmax normalized kernels of size $k$ acting as a
limited-window self-attention, resulting in time complexity of $O(k{\cdot}n)$.
In this paper, we introduce Time-aware Large Kernel (TaLK) Convolutions, a
novel adaptive convolution operation that learns to predict the size of a
summation kernel instead of using a fixed-sized kernel matrix. This method
yields a time complexity of $O(n)$, effectively making the sequence encoding
process linear to the number of tokens. We evaluate the proposed method on
large-scale standard machine translation, abstractive summarization and
language modeling datasets and show that TaLK Convolutions constitute an
efficient improvement over other attention/convolution based approaches.
- Abstract(参考訳): 現在、ほとんどの最先端のシーケンスモデリングアーキテクチャは、言語ベースのタスクのための生成モデルを構築するために注意を払っている。
これらのモデルのいくつかは、すべての利用可能なシーケンストークンを使用して注意分布を生成し、結果として時間複雑性は$O(n^2)$となる。
あるいは、ソフトマックス正規化カーネルを限定的な自己アテンションとして作用する$k$で深度的に畳み込みし、結果として時間複雑性は$O(k{\cdot}n)$となる。
本稿では,固定サイズのカーネル行列ではなく,和カーネルのサイズを予測することを学習する新しい適応型畳み込み演算である,時間対応Large Kernel (TaLK) Convolutionsを紹介する。
この方法では、O(n)$の時間複雑性が得られ、事実上、シーケンスエンコーディングプロセスはトークンの数に線形になる。
提案手法は, 大規模機械翻訳, 抽象要約, 言語モデリングデータセットにおいて評価され, TaLK畳み込みが他の注意/畳み込みに基づくアプローチよりも効率的であることを示す。
関連論文リスト
- Kernel-U-Net: Symmetric and Hierarchical Architecture for Multivariate
Time Series Forecasting [2.0186752447895993]
Kernel-U-Netは対称的で階層的なU字型ニューラルネットワークアーキテクチャである。
1)特定のデータセットに適応するためのカーネルのカスタマイズの柔軟性、2)トランスフォーマー層の複雑さを線形に減らした計算効率の向上、である。
Kernel-U-Netのソースコードは、さらなる研究とアプリケーションのために公開されている。
論文 参考訳(メタデータ) (2024-01-03T00:49:51Z) - Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for
Long Sequences [1.7403133838762448]
我々は、長さ$n$のシーケンスに対する注意の時間とメモリの複雑さを低減するために、分割・参照戦略を利用する新しい注意機構であるFast Multipole Attentionを提案する。
階層的なアプローチは、クエリ、キー、値を$mathcalO(log n)$の解像度レベルにグループ化する。
我々は,高速多極変換器がメモリサイズや精度の点で,他の効率的な変換器よりもはるかに優れていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-10-18T13:40:41Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For
Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。
本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Scalable First-Order Bayesian Optimization via Structured Automatic
Differentiation [4.061135251278187]
広い範囲のカーネルが構造化行列を生じさせ、勾配観測のための正確な$mathcalO(n2d)$Matrix-vector multiplyとヘッセン観測のための$mathcalO(n2d2)$を可能にした。
提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,放射基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。
論文 参考訳(メタデータ) (2022-06-16T17:59:48Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。