論文の概要: Are Pre-trained Convolutions Better than Pre-trained Transformers?
- arxiv url: http://arxiv.org/abs/2105.03322v1
- Date: Fri, 7 May 2021 15:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:28:36.313114
- Title: Are Pre-trained Convolutions Better than Pre-trained Transformers?
- Title(参考訳): 事前学習型コンボリューションは事前学習型トランスより優れているか?
- Authors: Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen
Qin, Donald Metzler
- Abstract要約: CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。
本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
- 参考スコア(独自算出の注目度): 42.33244035851147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of pre-trained language models, Transformers are the de facto
choice of model architectures. While recent research has shown promise in
entirely convolutional, or CNN, architectures, they have not been explored
using the pre-train-fine-tune paradigm. In the context of language models, are
convolutional models competitive to Transformers when pre-trained? This paper
investigates this research question and presents several interesting findings.
Across an extensive set of experiments on 8 datasets/tasks, we find that
CNN-based pre-trained models are competitive and outperform their Transformer
counterpart in certain scenarios, albeit with caveats. Overall, the findings
outlined in this paper suggest that conflating pre-training and architectural
advances is misguided and that both advances should be considered
independently. We believe our research paves the way for a healthy amount of
optimism in alternative architectures.
- Abstract(参考訳): 事前訓練された言語モデルの時代において、トランスフォーマーはモデルアーキテクチャの事実上の選択である。
近年の研究では、完全に畳み込み型アーキテクチャ(cnn)が期待されているものの、事前トレイン・フィナンシャル・チューンパラダイムを使用しては検討されていない。
言語モデルの文脈では、畳み込みモデルは事前訓練されたときにトランスフォーマーと競合するのか?
本稿では,本研究を考察し,いくつかの興味深い知見を示す。
8つのデータセット/タスクに関する広範囲な実験を通じて、cnnベースの事前学習されたモデルは、特定のシナリオではトランスフォーマーのモデルよりも競争力があり、優れていることが分かりました。
総じて,本論文で概説された知見は,事前学習とアーキテクチャ上の進歩を混同し,両方の進歩を独立して考えるべきであることを示唆している。
私たちの研究は、代替アーキテクチャにおける健全な楽観主義への道を開くものだと考えています。
関連論文リスト
- B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。
B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文 参考訳(メタデータ) (2024-11-01T16:28:11Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Data-Efficient Training of CNNs and Transformers with Coresets: A
Stability Perspective [12.53542203921728]
ベンチマーク設定を行い、CNNとトランスフォーマーの異なるコアセット選択方法を比較する。
我々は,SOTA選択法と比較して,サブセットのランダム選択がより堅牢で安定であることを示す。
トランスフォーマーは一般的に大規模なデータセットで事前トレーニングされており、特定のターゲットデータセットに対して、非常に小さなコアセットサイズでパフォーマンスを安定させるのに役立ちます。
論文 参考訳(メタデータ) (2023-03-03T17:24:39Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - HYDRA -- Hyper Dependency Representation Attentions [4.697611383288171]
そこで本稿では,トランスフォーマーモデルに知識を注入するために,事前学習を行うことなく,より軽量な言語自己意図型ヘッドを提案する。
私たちのアプローチは、教師なしの学習をモデルに残して、言語知識を厳格に適合させるというバランスのとれたパラダイムです。
我々は,言語知識のトランスフォーマーモデルへの貢献を示すために,ベンチマークデータセットのフレームワークを実証的に検証した。
論文 参考訳(メタデータ) (2021-09-11T19:17:34Z) - Don't Sweep your Learning Rate under the Rug: A Closer Look at
Cross-modal Transfer of Pretrained Transformers [1.9662978733004601]
テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端の成果を上げている。
私たちの研究では、この結果が、実際に、学習率を調整しない成果物であることに気付きました。
論文 参考訳(メタデータ) (2021-07-26T20:20:48Z) - Rethinking Architecture Design for Tackling Data Heterogeneity in
Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。
我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文 参考訳(メタデータ) (2021-06-10T21:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。