論文の概要: LAIT: Efficient Multi-Segment Encoding in Transformers with
Layer-Adjustable Interaction
- arxiv url: http://arxiv.org/abs/2305.19585v1
- Date: Wed, 31 May 2023 06:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:19:44.473346
- Title: LAIT: Efficient Multi-Segment Encoding in Transformers with
Layer-Adjustable Interaction
- Title(参考訳): LAIT: 層調整可能な相互作用を持つ変換器における効率的な多重セグメント符号化
- Authors: Jeremiah Milbauer, Annie Louis, Mohammad Javad Hosseini, Alex
Fabrikant, Donald Metzler, Tal Schuster
- Abstract要約: 変換器(LAIT)における層間相互作用について紹介する。
LAIT内では、セグメント化された入力は、まず独立に符号化され、次に共同で符号化される。
LAITは高い精度を保ちながら、多くのタスクにおけるFLOPの30~50%の注意を減らすことができる。
- 参考スコア(独自算出の注目度): 31.895986544484206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer encoders contextualize token representations by attending to all
other tokens at each layer, leading to quadratic increase in compute effort
with the input length. In practice, however, the input text of many NLP tasks
can be seen as a sequence of related segments (e.g., the sequence of sentences
within a passage, or the hypothesis and premise in NLI). While attending across
these segments is highly beneficial for many tasks, we hypothesize that this
interaction can be delayed until later encoding stages.
To this end, we introduce Layer-Adjustable Interactions in Transformers
(LAIT). Within LAIT, segmented inputs are first encoded independently, and then
jointly. This partial two-tower architecture bridges the gap between a Dual
Encoder's ability to pre-compute representations for segments and a fully
self-attentive Transformer's capacity to model cross-segment attention. The
LAIT framework effectively leverages existing pretrained Transformers and
converts them into the hybrid of the two aforementioned architectures, allowing
for easy and intuitive control over the performance-efficiency tradeoff.
Experimenting on a wide range of NLP tasks, we find LAIT able to reduce 30-50%
of the attention FLOPs on many tasks, while preserving high accuracy; in some
practical settings, LAIT could reduce actual latency by orders of magnitude.
- Abstract(参考訳): Transformerエンコーダは、各レイヤの他のすべてのトークンに出席することでトークン表現を文脈的にエンコードし、入力長の計算労力を2次的に増加させる。
しかし実際には、多くのNLPタスクの入力テキストは関連するセグメントのシーケンス(例えば、パス内の文のシーケンス、NLIの仮説と前提)と見なすことができる。
これらのセグメントへの参加は多くのタスクにとって非常に有益であるが、この相互作用は後続のエンコーディング段階まで遅れる可能性があると仮定する。
この目的のために、トランスフォーマー(lait)にレイヤ調整可能なインタラクションを導入する。
LAIT内では、セグメント化された入力はまず独立に符号化され、その後共同で符号化される。
この部分的な2towerアーキテクチャは、セグメントのプリコンプリート表現に対するデュアルエンコーダの能力と、クロスセグメンテーションの注意をモデル化する完全自己完結トランスフォーマーの能力とのギャップを埋める。
LAITフレームワークは、既存のトレーニング済みのトランスフォーマーを効果的に活用し、上記の2つのアーキテクチャのハイブリッドに変換し、パフォーマンス効率のトレードオフを簡単に、直感的に制御できるようにする。
広範囲なNLPタスクで実験したところ、LAITは多くのタスクにおける注意FLOPの30~50%を削減できるが、精度は高く、実用的な設定では、LAITは実際の遅延を桁違いに削減できる。
関連論文リスト
- FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
FIRSTは、層固有のルータを使用して、各入力シーケンスに適応的にトランスフォーマー層のサブセットを選択することで、推論レイテンシを低減するアルゴリズムである。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Towards More Efficient Insertion Transformer with Fractional Positional
Encoding [44.45401243989363]
自動回帰ニューラルシーケンスモデルは、テキスト生成タスクで有効であることが示されている。
左から右への復号命令は、生成が並列化されるのを防ぐ。
Insertion Transformerは、単一の生成ステップで複数のトークンを出力できる魅力的な代替手段である。
論文 参考訳(メタデータ) (2021-12-12T18:38:27Z) - ASFormer: Transformer for Action Segmentation [9.509416095106493]
本稿では,アクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルASFormerを提案する。
信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。
我々は、長い入力シーケンスを効率的に処理する事前定義された階層表現パターンを適用した。
論文 参考訳(メタデータ) (2021-10-16T13:07:20Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。