論文の概要: Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model
- arxiv url: http://arxiv.org/abs/2305.16340v1
- Date: Wed, 24 May 2023 03:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:13:24.834717
- Title: Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model
- Title(参考訳): 分割リカレント変圧器:効率的なシーケンス対シーケンスモデル
- Authors: Yinghan Long, Sayeed Shafayet Chowdhury, Kaushik Roy
- Abstract要約: トランスフォーマーは、言語や視覚など、さまざまな領域において、主要なパフォーマンスを示している。
これに対抗するために、我々のアプローチはシーケンス全体をセグメントに分割することである。
セグメントにまたがる情報は、その固有の記憶を活用するニューロンを用いて集約される。
- 参考スコア(独自算出の注目度): 5.727466588755892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown dominant performance across a range of domains
including language and vision. However, their computational cost grows
quadratically with the sequence length, making their usage prohibitive for
resource-constrained applications. To counter this, our approach is to divide
the whole sequence into segments. The information across segments can then be
aggregated using neurons with recurrence leveraging their inherent memory. Such
an approach leads to models with sequential processing capability at a lower
computation/memory cost. To investigate this idea, first, we examine the
effects of using local attention mechanism on the individual segments. Then we
propose a segmented recurrent transformer (SRformer) that combines segmented
attention with recurrent attention. It uses recurrent accumulate and fire (RAF)
layers to process information between consecutive segments. The loss caused by
reducing the attention window length is compensated by updating the product of
keys and values with RAF neurons' inherent recurrence. The segmented attention
and lightweight RAF gates ensure the efficiency of the proposed transformer. We
apply the proposed method to T5 and BART transformers. The modified models are
tested on summarization datasets including CNN-dailymail and XSUM. Notably,
using segmented inputs of different sizes, the proposed model achieves 4-19%
higher ROUGE1 scores than the segmented transformer baseline. Compared to full
attention, the proposed model largely reduces the complexity of cross attention
and results in around 40% reduction in computation cost.
- Abstract(参考訳): トランスフォーマーは、言語やビジョンを含むさまざまな領域で支配的なパフォーマンスを示している。
しかし、計算コストはシーケンス長と二乗的に増大し、リソース制約のあるアプリケーションでは使用が禁止される。
これに対抗するために、我々のアプローチはシーケンス全体をセグメントに分割することである。
セグメントにまたがる情報は、その固有の記憶を活用するニューロンを用いて集約される。
このようなアプローチは、より低い計算/メモリコストでシーケンシャルな処理能力を持つモデルにつながる。
本研究は,まず,局所的注意機構が個々のセグメントに与える影響について検討する。
次に,セグメント化注意と再帰的注意を組み合わせたセグメント化再帰変圧器(srformer)を提案する。
連続したセグメント間の情報を処理するために、繰り返し蓄積および火災(RAF)層を使用する。
注意窓長の減少に起因する損失は、RAFニューロン固有の再発と共にキーと値の積を更新することで補償される。
セグメント化された注意と軽量なRAFゲートは、提案したトランスの効率性を保証する。
提案手法をT5およびBARTトランスに適用する。
修正されたモデルはcnn-dailymailやxsumを含む要約データセット上でテストされる。
特に、異なるサイズのセグメント入力を用いて、提案モデルは、セグメント変換器ベースラインよりも4-19%高いROUGE1スコアを達成する。
完全注意と比較して,提案手法はクロス注意の複雑さを大幅に削減し,計算コストを約40%削減する。
関連論文リスト
- ENACT: Entropy-based Clustering of Attention Input for Improving the Computational Performance of Object Detection Transformers [0.0]
トランスフォーマーは、視覚に基づく物体検出の問題において、精度で競合性能を示す。
本稿では,そのエントロピーに基づいて変換器の入力をクラスタリングする。
クラスタリングは、トランスへの入力として与えられるデータのサイズを削減し、トレーニング時間とGPUメモリ使用量を削減する。
論文 参考訳(メタデータ) (2024-09-11T18:03:59Z) - CAST: Clustering Self-Attention using Surrogate Tokens for Efficient
Transformers [3.129187821625805]
本稿では,Surrogate Tokens (CAST) を用いたクラスタリング自己注意機構を提案する。
CASTは複雑性を$O(N2)$から$O(アルファN)$に減らして効率を向上する。
論文 参考訳(メタデータ) (2024-02-06T18:47:52Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。