論文の概要: Sparsifying Transformer Models with Trainable Representation Pooling
- arxiv url: http://arxiv.org/abs/2009.05169v4
- Date: Mon, 7 Mar 2022 12:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 02:42:04.783373
- Title: Sparsifying Transformer Models with Trainable Representation Pooling
- Title(参考訳): トレーニング可能な表現プールを用いたスポーリング変換器モデル
- Authors: Micha{\l} Pietruszka, {\L}ukasz Borchmann, {\L}ukasz Garncarek
- Abstract要約: 本稿では,トランスフォーマーモデルにおいて,トレーニングプロセス中に最も表現力の高いトークン表現を選択することを学習することで注意を分散させる新しい手法を提案する。
2次時間とメモリの複雑さを減らしたのは、堅牢なトレーニング可能なトップ$k$演算子によって達成された。
- 参考スコア(独自算出の注目度): 5.575448433529451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel method to sparsify attention in the Transformer model by
learning to select the most-informative token representations during the
training process, thus focusing on the task-specific parts of an input. A
reduction of quadratic time and memory complexity to sublinear was achieved due
to a robust trainable top-$k$ operator. Our experiments on a challenging long
document summarization task show that even our simple baseline performs
comparably to the current SOTA, and with trainable pooling, we can retain its
top quality, while being $1.8\times$ faster during training, $4.5\times$ faster
during inference, and up to $13\times$ more computationally efficient in the
decoder.
- Abstract(参考訳): 本稿では,トランスフォーマーモデルにおいて,トレーニングプロセス中に最も印象的なトークン表現を選択することを学習し,入力のタスク固有の部分に着目して注意を分散させる手法を提案する。
トレーニング可能なトップ$k$演算子により、二次時間とメモリの複雑さをサブリニアに削減することができた。
挑戦的な長文要約タスクの実験では、私たちの単純なベースラインでさえ、現在のSOTAと同等に動作し、トレーニング可能なプールでは、最大品質を保ちながら、トレーニング中に1.8\times$、推論時に4.5\times$、デコーダで最大13\times$の計算効率を維持します。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。
我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文 参考訳(メタデータ) (2023-12-20T18:08:02Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Leveraging universality of jet taggers through transfer learning [0.0]
本稿では,高速かつデータ効率の高いジェットタグの開発にトランスファーラーニング技術を用いる方法について検討する。
トレーニングプロセスの高速化により、信頼性の高いタグを桁違いに少ないデータで取得できることが判明した。
これは、コライダー物理学実験におけるそのようなツールの使用を促進するための有望な道を提供する。
論文 参考訳(メタデータ) (2022-03-11T19:05:26Z) - DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。
少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文 参考訳(メタデータ) (2021-06-01T13:33:53Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。