論文の概要: LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions
- arxiv url: http://arxiv.org/abs/2405.13046v1
- Date: Sat, 18 May 2024 22:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:41:59.074482
- Title: LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions
- Title(参考訳): LeaPformer: 学習された確率による自動回帰タスクと同時タスクのための線形変換器の実現
- Authors: Victor Agostinelli, Sanghyun Hong, Lizhong Chen,
- Abstract要約: 最先端の再重み付け関数は、ターゲットシーケンスの長さに大きく依存する。
本稿ではLearnered Proportions(LeaP)とLeaPformersを提案する。
- 参考スコア(独自算出の注目度): 7.478336691707095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promising approach to preserving model performance in linearized transformers is to employ position-based re-weighting functions. However, state-of-the-art re-weighting functions rely heavily on target sequence lengths, making it difficult or impossible to apply them to autoregressive and simultaneous tasks, where the target and sometimes even the input sequence length are unknown. To address this issue, we propose Learned Proportions (LeaP) and LeaPformers. Our contribution is built on two major components. First, we generalize the dependence on explicit positional representations and sequence lengths into dependence on sequence proportions for re-weighting. Second, we replace static positional representations with dynamic proportions derived via a compact module, enabling more flexible attention concentration patterns. We evaluate LeaPformer against eight representative efficient transformers on the Long-Range Arena benchmark, showing that LeaPformer achieves the best quality-throughput trade-off, as well as LeaPformer to Wikitext-103 autoregressive language modeling and simultaneous speech-to-text translation for two language pairs, achieving competitive results.
- Abstract(参考訳): 線形変換器におけるモデル性能を維持するための有望なアプローチは、位置ベース再重み付け関数を採用することである。
しかし、最先端の再重み付け関数はターゲットのシーケンス長に大きく依存しているため、ターゲットと場合によっては入力シーケンス長が不明な自動回帰および同時タスクに適用することは困難または不可能である。
この問題に対処するため,Learnered Proportions (LeaP) とLeaPformersを提案する。
私たちのコントリビューションは2つの主要なコンポーネントの上に構築されています。
まず、明示的な位置表現とシーケンス長への依存を、再重み付けのためのシーケンス比への依存に一般化する。
第二に、静的な位置表現をコンパクトなモジュールによって導出される動的比例に置き換えることで、より柔軟な注意集中パターンを実現する。
我々はLeaPformerをLong-Range Arenaベンチマークの8つの代表的効率変換器に対して評価し、LeaPformerが最高の品質とスループットのトレードオフを達成し、LeaPformerはWikitext-103の自動回帰言語モデリングと2つの言語対の音声とテキストの同時変換を実現し、競争力のある結果が得られることを示した。
関連論文リスト
- Context-Scaling versus Task-Scaling in In-Context Learning [17.36757113301424]
In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-16T17:58:08Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文 参考訳(メタデータ) (2023-06-14T17:59:02Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。