論文の概要: Transformers with Learnable Activation Functions
- arxiv url: http://arxiv.org/abs/2208.14111v1
- Date: Tue, 30 Aug 2022 09:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:56:03.531175
- Title: Transformers with Learnable Activation Functions
- Title(参考訳): 学習可能なアクティベーション機能を有するトランスフォーマー
- Authors: Haishuo Fang, Ji-Ung Lee, Nafise Sadat Moosavi, Iryna Gurevych
- Abstract要約: 我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
- 参考スコア(独自算出の注目度): 63.98696070245065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation functions can have a significant impact on reducing the
topological complexity of input data and therefore improve the performance of
the model. Selecting a suitable activation function is an essential step in
neural model design. However, the choice of activation function is seldom
discussed or explored in Transformer-based language models. Their activation
functions are chosen beforehand and then remain fixed from pre-training to
fine-tuning. As a result, the inductive biases they imposed on models cannot be
adjusted during this long life cycle. Moreover, subsequently developed models
(e.g., RoBERTa, BART, and GPT-3) often follow up prior work (e.g., BERT) to use
the same activation function without justification. In this paper, we
investigate the effectiveness of using Rational Activation Function (RAF), a
learnable activation function, in the Transformer architecture. In contrast to
conventional, predefined activation functions, RAFs can adaptively learn
optimal activation functions during training according to input data. Our
experiments show the RAF-based Transformer (RAFT) achieves a lower validation
perplexity than a vanilla BERT with the GELU function. We further evaluate RAFT
on downstream tasks in low- and full-data settings. Our results show that RAFT
outperforms the counterpart model across the majority of tasks and settings.
For instance, RAFT outperforms vanilla BERT on the GLUE benchmark by 5.71
points on average in low-data scenario (where 100 training examples are
available) and by 2.05 points on SQuAD in full-data setting. Analysis of the
shapes of learned RAFs further unveils that they substantially vary between
different layers of the pre-trained model and mostly look very different from
conventional activation functions. RAFT opens a new research direction for
analyzing and interpreting pre-trained models according to the learned
activation functions.
- Abstract(参考訳): アクティベーション関数は入力データのトポロジカルな複雑さを低減し、モデルの性能を向上させる上で大きな影響を与える可能性がある。
適切なアクティベーション関数の選択は、ニューラルモデル設計において不可欠なステップである。
しかし、アクティベーション関数の選択はトランスフォーマーベースの言語モデルではほとんど議論されない。
アクティベーション機能は事前に選択され、事前訓練から微調整まで固定される。
その結果、モデルに課された帰納バイアスは、この長いライフサイクルの間に調整できない。
さらに、後に開発されたモデル(例えばRoBERTa、BART、GPT-3)は、しばしば以前の作業(例えばBERT)を正当化せずに同じアクティベーション関数を使用する。
本稿では,Transformerアーキテクチャにおいて,学習可能なアクティベーション関数であるRational Activation Function(RAF)の有効性を検討する。
従来の事前定義されたアクティベーション関数とは対照的に、RAFは入力データに従ってトレーニング中に最適なアクティベーション関数を適応的に学習することができる。
実験の結果,RAFT(RAFT)はGELU関数を持つバニラBERTよりも精度が低いことがわかった。
ダウンストリームタスクにおけるRAFTを、低域およびフルデータ設定で評価する。
この結果から,RAFTはタスクや設定の大部分において,対応するモデルよりも優れていた。
例えば、RAFTはGLUEベンチマークのバニラBERTを、ローデータシナリオ(100のトレーニング例が利用可能)で平均5.71ポイント、フルデータ設定で2.05ポイントで上回っている。
学習されたRAFの形状の分析により、それらは事前訓練されたモデルの異なる層間で大きく異なり、従来の活性化関数と大きく異なるように見えることが明らかになった。
RAFTは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
関連論文リスト
- On the Role of Activation Functions in EEG-To-Text Decoder [5.4141465747474475]
脳波を用いてテキストを生成する最初の試みの本来の性能を改善することを試みる。
モデルアーキテクチャを変更することなく,高次アクティベーション関数の導入によりモデル性能が向上することを示す。
また,学習可能な3次アクティベーション関数は,学習可能な3次アクティベーション関数よりも1-gram評価が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T13:50:04Z) - Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - A Method on Searching Better Activation Functions [15.180864683908878]
深層ニューラルネットワークにおける静的活性化関数を設計するためのエントロピーに基づくアクティベーション関数最適化(EAFO)手法を提案する。
我々は、CRRELU(Correction Regularized ReLU)として知られるReLUから新しいアクティベーション関数を導出する。
論文 参考訳(メタデータ) (2024-05-19T03:48:05Z) - Efficient Activation Function Optimization through Surrogate Modeling [15.219959721479835]
本稿は,3つのステップを通じて,芸術の状況を改善することを目的としている。
まず、Act-Bench-CNN、Act-Bench-ResNet、Act-Bench-ViTのベンチマークは、畳み込み、残留、ビジョントランスフォーマーアーキテクチャのトレーニングによって作成された。
第2に、ベンチマーク空間のキャラクタリゼーションが開発され、新しいサロゲートに基づく最適化手法が開発された。
論文 参考訳(メタデータ) (2023-01-13T23:11:14Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z) - Discovering Parametric Activation Functions [17.369163074697475]
本稿では,アクティベーション機能を自動でカスタマイズする手法を提案する。
CIFAR-10とCIFAR-100の画像分類データセット上の4つの異なるニューラルネットワークアーキテクチャによる実験は、このアプローチが有効であることを示している。
論文 参考訳(メタデータ) (2020-06-05T00:25:33Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。