Fugu-MT 論文翻訳(概要): Are Pre-trained Convolutions Better than Pre-trained Transformers?

論文の概要: Are Pre-trained Convolutions Better than Pre-trained Transformers?

arxiv url: http://arxiv.org/abs/2105.03322v1
Date: Fri, 7 May 2021 15:13:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-10 12:28:36.313114
Title: Are Pre-trained Convolutions Better than Pre-trained Transformers?
Title（参考訳）: 事前学習型コンボリューションは事前学習型トランスより優れているか?
Authors: Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen Qin, Donald Metzler
Abstract要約: CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
参考スコア（独自算出の注目度）: 42.33244035851147
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the era of pre-trained language models, Transformers are the de facto choice of model architectures. While recent research has shown promise in entirely convolutional, or CNN, architectures, they have not been explored using the pre-train-fine-tune paradigm. In the context of language models, are convolutional models competitive to Transformers when pre-trained? This paper investigates this research question and presents several interesting findings. Across an extensive set of experiments on 8 datasets/tasks, we find that CNN-based pre-trained models are competitive and outperform their Transformer counterpart in certain scenarios, albeit with caveats. Overall, the findings outlined in this paper suggest that conflating pre-training and architectural advances is misguided and that both advances should be considered independently. We believe our research paves the way for a healthy amount of optimism in alternative architectures.
Abstract（参考訳）: 事前訓練された言語モデルの時代において、トランスフォーマーはモデルアーキテクチャの事実上の選択である。近年の研究では、完全に畳み込み型アーキテクチャ(cnn)が期待されているものの、事前トレイン・フィナンシャル・チューンパラダイムを使用しては検討されていない。言語モデルの文脈では、畳み込みモデルは事前訓練されたときにトランスフォーマーと競合するのか? 本稿では,本研究を考察し,いくつかの興味深い知見を示す。 8つのデータセット/タスクに関する広範囲な実験を通じて、cnnベースの事前学習されたモデルは、特定のシナリオではトランスフォーマーのモデルよりも競争力があり、優れていることが分かりました。総じて,本論文で概説された知見は,事前学習とアーキテクチャ上の進歩を混同し,両方の進歩を独立して考えるべきであることを示唆している。私たちの研究は、代替アーキテクチャにおける健全な楽観主義への道を開くものだと考えています。

関連論文リスト

Utilizing Novelty-based Evolution Strategies to Train Transformers in Reinforcement Learning [0.0]
NS-ESおよびNSR-ESアルゴリズムであるOpenAI-ESの新規性に基づく変種を評価する。また、事前訓練されたモデルによるトレーニングをシードすることで、より大規模なモデルの新規性に基づくトレーニングを加速できるかどうかも検証する。
論文参考訳（メタデータ） (2025-02-10T09:44:10Z)
B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。 B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文参考訳（メタデータ） (2024-11-01T16:28:11Z)
Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。本稿では,映像予測の文脈における3次元注意の包括的分析を行う。精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文参考訳（メタデータ） (2024-10-07T03:52:06Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Data-Efficient Training of CNNs and Transformers with Coresets: A Stability Perspective [12.53542203921728]
ベンチマーク設定を行い、CNNとトランスフォーマーの異なるコアセット選択方法を比較する。我々は,SOTA選択法と比較して,サブセットのランダム選択がより堅牢で安定であることを示す。トランスフォーマーは一般的に大規模なデータセットで事前トレーニングされており、特定のターゲットデータセットに対して、非常に小さなコアセットサイズでパフォーマンスを安定させるのに役立ちます。
論文参考訳（メタデータ） (2023-03-03T17:24:39Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
On the Effect of Pre-training for Transformer in Different Modality on Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文参考訳（メタデータ） (2022-11-17T13:34:08Z)
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文参考訳（メタデータ） (2022-04-12T14:19:49Z)
Investigating Transfer Learning Capabilities of Vision Transformers and CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文参考訳（メタデータ） (2021-10-11T13:43:03Z)
HYDRA -- Hyper Dependency Representation Attentions [4.697611383288171]
そこで本稿では,トランスフォーマーモデルに知識を注入するために,事前学習を行うことなく,より軽量な言語自己意図型ヘッドを提案する。私たちのアプローチは、教師なしの学習をモデルに残して、言語知識を厳格に適合させるというバランスのとれたパラダイムです。我々は,言語知識のトランスフォーマーモデルへの貢献を示すために,ベンチマークデータセットのフレームワークを実証的に検証した。
論文参考訳（メタデータ） (2021-09-11T19:17:34Z)
Don't Sweep your Learning Rate under the Rug: A Closer Look at Cross-modal Transfer of Pretrained Transformers [1.9662978733004601]
テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端の成果を上げている。私たちの研究では、この結果が、実際に、学習率を調整しない成果物であることに気付きました。
論文参考訳（メタデータ） (2021-07-26T20:20:48Z)
Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文参考訳（メタデータ） (2021-06-10T21:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。