論文の概要: Staircase Attention for Recurrent Processing of Sequences
- arxiv url: http://arxiv.org/abs/2106.04279v1
- Date: Tue, 8 Jun 2021 12:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:18:40.827738
- Title: Staircase Attention for Recurrent Processing of Sequences
- Title(参考訳): シーケンスの繰り返し処理に対する階段の注意
- Authors: Da Ju, Stephen Roller, Sainbayar Sukhbaatar, Jason Weston
- Abstract要約: ステアケースアテンションは、他の処理ステップを追加して入力を(時間内に)繰り返し処理する。
この再発により、従来のトランスフォーマーでは不可能なタスクを追跡することができる。
大規模言語モデリングや対話タスクにおける自己拡張型トランスフォーマーと比較して,同じサイズモデル(パラメータ数)のモデリング能力が向上し,パープレキシティが大幅に向上することが示されている。
- 参考スコア(独自算出の注目度): 34.53670631387504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms have become a standard tool for sequence modeling tasks,
in particular by stacking self-attention layers over the entire input sequence
as in the Transformer architecture. In this work we introduce a novel attention
procedure called staircase attention that, unlike self-attention, operates
across the sequence (in time) recurrently processing the input by adding
another step of processing. A step in the staircase comprises of backward
tokens (encoding the sequence so far seen) and forward tokens (ingesting a new
part of the sequence), or an extreme Ladder version with a forward step of zero
that simply repeats the Transformer on each step of the ladder, sharing the
weights. We thus describe a family of such models that can trade off
performance and compute, by either increasing the amount of recurrence through
time, the amount of sequential processing via recurrence in depth, or both.
Staircase attention is shown to be able to solve tasks that involve tracking
that conventional Transformers cannot, due to this recurrence. Further, it is
shown to provide improved modeling power for the same size model (number of
parameters) compared to self-attentive Transformers on large language modeling
and dialogue tasks, yielding significant perplexity gains.
- Abstract(参考訳): 特にTransformerアーキテクチャのように、入力シーケンス全体にわたって自己アテンション層を積み重ねることで、アテンションメカニズムがシーケンスモデリングタスクの標準ツールになっている。
本研究では,ステップアテンション(階段アテンション)と呼ばれる新しいアテンション手順を導入する。これは,自己アテンションとは違って,他のステップを追加して入力を(時間内に)繰り返し処理する。
階段のステップは、後方のトークン(これまで見たシーケンスをエンコードする)と前方のトークン(シーケンスの新たな部分を引用する)と、はしごの各ステップでトランスフォーマーを単純に繰り返すゼロの前方のステップを持つ極端なラダーバージョンで構成され、重みを共有している。
そこで本研究では,時間経過による逐次処理量の増加,深度による逐次処理量の増加,あるいはその両方によって,性能と計算をトレードオフできるモデル群について述べる。
階段の注意は、この再発のため、従来のトランスフォーマーができないことを追跡するタスクを解決できることが示されている。
さらに,同一サイズのモデル(パラメータ数)に対して,大規模言語モデリングや対話タスクにおける自己対応トランスフォーマと比較して,モデリング能力が向上し,かなりのパープレキシティ向上が期待できることを示した。
関連論文リスト
- Looking Beyond The Top-1: Transformers Determine Top Tokens In Order [13.032106683136394]
トップ1予測が修正された後、トランスフォーマーが層内で行う計算を解析する。
これらの飽和事象は、対応するトークンのランクの順に発生する。
この逐次飽和に対するタスク遷移のメカニズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T16:00:38Z) - Harnessing Attention Mechanisms: Efficient Sequence Reduction using
Attention-based Autoencoders [14.25761027376296]
本稿では,シーケンス長を直接操作できる新しいアテンションベース手法を提案する。
オートエンコーダは、元のシーケンスを元のサイズの半分に減らす際に、重要な情報を全て保持していることを示す。
論文 参考訳(メタデータ) (2023-10-23T11:57:44Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers [24.109312575970456]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - SVIP: Sequence VerIfication for Procedures in Videos [68.07865790764237]
ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
論文 参考訳(メタデータ) (2021-12-13T07:03:36Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。