論文の概要: PoNet: Pooling Network for Efficient Token Mixing in Long Sequences
- arxiv url: http://arxiv.org/abs/2110.02442v2
- Date: Thu, 7 Oct 2021 04:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 12:02:51.039599
- Title: PoNet: Pooling Network for Efficient Token Mixing in Long Sequences
- Title(参考訳): PoNet: 長いシーケンスでの効率的なトケミキシングのためのポーリングネットワーク
- Authors: Chao-Hong Tan, Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng,
Zhen-Hua Ling
- Abstract要約: 本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。
Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、競合する精度を実現している。
- 参考スコア(独自算出の注目度): 35.04446830626955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have achieved great success in various NLP, vision,
and speech tasks. However, the core of Transformer, the self-attention
mechanism, has a quadratic time and memory complexity with respect to the
sequence length, which hinders applications of Transformer-based models to long
sequences. Many approaches have been proposed to mitigate this problem, such as
sparse attention mechanisms, low-rank matrix approximations and scalable
kernels, and token mixing alternatives to self-attention. We propose a novel
Pooling Network (PoNet) for token mixing in long sequences with linear
complexity. We design multi-granularity pooling and pooling fusion to capture
different levels of contextual information and combine their interactions with
tokens. On the Long Range Arena benchmark, PoNet significantly outperforms
Transformer and achieves competitive accuracy, while being only slightly slower
than the fastest model, FNet, across all sequence lengths measured on GPUs. We
also conduct systematic studies on the transfer learning capability of PoNet
and observe that PoNet achieves 96.0% of the accuracy of BERT on the GLUE
benchmark, outperforming FNet by 4.5% relative. Comprehensive ablation analysis
demonstrates effectiveness of the designed multi-granularity pooling and
pooling fusion for token mixing in long sequences and efficacy of the designed
pre-training tasks for PoNet to learn transferable contextualized language
representations.
- Abstract(参考訳): トランスフォーマーベースのモデルは、様々なNLP、ビジョン、音声タスクで大きな成功を収めている。
しかし、自己アテンション機構であるトランスのコアはシーケンス長に関して二次時間とメモリの複雑さを持ち、トランスフォーマーベースのモデルの長いシーケンスへの応用を妨げる。
この問題を緩和するために、スパース注意機構、低ランク行列近似、スケーラブルカーネル、およびトークン混合の代替品など、多くのアプローチが提案されている。
本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。
複数粒度プールとプール融合を設計し、異なるレベルのコンテキスト情報をキャプチャし、それらの相互作用をトークンと組み合わせる。
Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、GPU上で測定されたすべてのシーケンス長に対して、最速のモデルであるFNetよりもわずかに遅い。
また,PoNetの伝達学習能力に関する系統的研究を行い, GLUEベンチマークにおけるBERTの精度の96.0%をPoNetが達成し, FNetを4.5%上回った。
包括的アブレーション解析は, 長期のトークン混合における多粒度プールとプール融合の有効性と, 伝達可能な文脈言語表現を学習するためのPoNetのための事前学習タスクの有効性を示す。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - TFDMNet: A Novel Network Structure Combines the Time Domain and
Frequency Domain Features [34.91485245048524]
本稿では、畳み込み層を置き換える新しい要素ワイド乗算層(EML)を提案する。
また、過度に適合する問題を緩和するための重み付け機構も導入する。
実験結果から,TFDMNetはMNIST, CIFAR-10, ImageNetデータベース上で優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-01-29T08:18:21Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - Residual Shuffle-Exchange Networks for Fast Processing of Long Sequences [3.8848561367220276]
本稿では,GELUとレイヤ正規化を用いた残差ネットワークに基づくShuffle-Exchangeネットワークの簡易かつ軽量なバージョンを提案する。
提案したアーキテクチャは, より長いシーケンスにスケールするだけでなく, より高速に収束し, 精度も向上する。
LAMBADA言語モデリングタスクのShuffle-Exchangeネットワークを超越し、MusicNetデータセットの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-04-06T12:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。