論文の概要: Pretrained Transformers as Universal Computation Engines
- arxiv url: http://arxiv.org/abs/2103.05247v1
- Date: Tue, 9 Mar 2021 06:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 19:22:58.466345
- Title: Pretrained Transformers as Universal Computation Engines
- Title(参考訳): 汎用計算エンジンとしてのプリトレーニングトランス
- Authors: Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch
- Abstract要約: 自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
- 参考スコア(独自算出の注目度): 105.00539596788127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the capability of a transformer pretrained on natural language
to generalize to other modalities with minimal finetuning -- in particular,
without finetuning of the self-attention and feedforward layers of the residual
blocks. We consider such a model, which we call a Frozen Pretrained Transformer
(FPT), and study finetuning it on a variety of sequence classification tasks
spanning numerical computation, vision, and protein fold prediction. In
contrast to prior works which investigate finetuning on the same modality as
the pretraining dataset, we show that pretraining on natural language improves
performance and compute efficiency on non-language downstream tasks. In
particular, we find that such pretraining enables FPT to generalize in
zero-shot to these modalities, matching the performance of a transformer fully
trained on these tasks.
- Abstract(参考訳): 自然言語に事前学習されたトランスフォーマーの能力について, 最小限の微調整で他のモダリティに一般化すること, 特に, 残差ブロックの自己付着層とフィードフォワード層の微調整をせずに検討する。
我々は,FPT (Frozen Pretrained Transformer) と呼ばれる,数値計算,視覚,タンパク質の折りたたみ予測を対象とする,様々なシーケンス分類タスクを微調整するモデルについて検討する。
事前学習データセットと同じモダリティを微調整する先行研究とは対照的に,自然言語への事前学習は,非言語下流タスクにおける性能と計算効率を向上させる。
特に,このような事前学習により,fpt はこれらのモダリティに対してゼロショットで一般化でき,これらのタスクで完全に訓練されたトランスフォーマーの性能に適合することがわかった。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Don't Sweep your Learning Rate under the Rug: A Closer Look at
Cross-modal Transfer of Pretrained Transformers [1.9662978733004601]
テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端の成果を上げている。
私たちの研究では、この結果が、実際に、学習率を調整しない成果物であることに気付きました。
論文 参考訳(メタデータ) (2021-07-26T20:20:48Z) - Consistent Accelerated Inference via Confident Adaptive Transformers [29.034390810078172]
我々は,大規模で高価な多層トランスの推論を確実に高速化する新しい手法を開発した。
また,本モデルとの確固たる一貫性を高い信頼度で保証しつつ,計算効率を向上させる。
このアプローチの有効性を4つの分類および回帰タスクで実証する。
論文 参考訳(メタデータ) (2021-04-18T10:22:28Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - End-to-end spoken language understanding using transformer networks and
self-supervised pre-trained features [17.407912171579852]
トランスフォーマーネットワークと自己教師型事前学習は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきた。
本稿では,自己教師付き事前学習音響特徴の活用が可能なモジュール型End-to-End (E2E) SLUトランスフォーマーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T19:30:52Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。