Fugu-MT 論文翻訳(概要): Sparsifying Transformer Models with Trainable Representation Pooling

論文の概要: Sparsifying Transformer Models with Trainable Representation Pooling

arxiv url: http://arxiv.org/abs/2009.05169v4
Date: Mon, 7 Mar 2022 12:49:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 02:42:04.783373
Title: Sparsifying Transformer Models with Trainable Representation Pooling
Title（参考訳）: トレーニング可能な表現プールを用いたスポーリング変換器モデル
Authors: Micha{\l} Pietruszka, {\L}ukasz Borchmann, {\L}ukasz Garncarek
Abstract要約: 本稿では,トランスフォーマーモデルにおいて,トレーニングプロセス中に最も表現力の高いトークン表現を選択することを学習することで注意を分散させる新しい手法を提案する。 2次時間とメモリの複雑さを減らしたのは、堅牢なトレーニング可能なトップ$k$演算子によって達成された。
参考スコア（独自算出の注目度）: 5.575448433529451
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel method to sparsify attention in the Transformer model by learning to select the most-informative token representations during the training process, thus focusing on the task-specific parts of an input. A reduction of quadratic time and memory complexity to sublinear was achieved due to a robust trainable top-$k$ operator. Our experiments on a challenging long document summarization task show that even our simple baseline performs comparably to the current SOTA, and with trainable pooling, we can retain its top quality, while being $1.8\times$ faster during training, $4.5\times$ faster during inference, and up to $13\times$ more computationally efficient in the decoder.
Abstract（参考訳）: 本稿では,トランスフォーマーモデルにおいて,トレーニングプロセス中に最も印象的なトークン表現を選択することを学習し,入力のタスク固有の部分に着目して注意を分散させる手法を提案する。トレーニング可能なトップ$k$演算子により、二次時間とメモリの複雑さをサブリニアに削減することができた。挑戦的な長文要約タスクの実験では、私たちの単純なベースラインでさえ、現在のSOTAと同等に動作し、トレーニング可能なプールでは、最大品質を保ちながら、トレーニング中に1.8\times$、推論時に4.5\times$、デコーダで最大13\times$の計算効率を維持します。

関連論文リスト

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文参考訳（メタデータ） (2024-09-28T08:57:17Z)
Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文参考訳（メタデータ） (2023-12-20T18:08:02Z)
On the Effectiveness of LayerNorm Tuning for Continual Learning in Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文参考訳（メタデータ） (2023-08-18T15:11:16Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文参考訳（メタデータ） (2023-03-26T16:39:44Z)
A Survey on Efficient Training of Transformers [72.31868024970674]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (2023-02-02T13:58:18Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Leveraging universality of jet taggers through transfer learning [0.0]
本稿では,高速かつデータ効率の高いジェットタグの開発にトランスファーラーニング技術を用いる方法について検討する。トレーニングプロセスの高速化により、信頼性の高いタグを桁違いに少ないデータで取得できることが判明した。これは、コライダー物理学実験におけるそのようなツールの使用を促進するための有望な道を提供する。
論文参考訳（メタデータ） (2022-03-11T19:05:26Z)
DoT: An efficient Double Transformer for NLP tasks with tables [3.0079490585515343]
DoTは、問題を2つのサブタスクに分解するダブルトランスフォーマーモデルである。少ない精度でDoTはトレーニング時間と推論時間を少なくとも50%改善することを示した。
論文参考訳（メタデータ） (2021-06-01T13:33:53Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。