論文の概要: FlexiBERT: Are Current Transformer Architectures too Homogeneous and
Rigid?
- arxiv url: http://arxiv.org/abs/2205.11656v1
- Date: Mon, 23 May 2022 22:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 06:18:27.030241
- Title: FlexiBERT: Are Current Transformer Architectures too Homogeneous and
Rigid?
- Title(参考訳): flexibert: 現在のトランスフォーマーアーキテクチャは均質で硬いのでしょうか?
- Authors: Shikhar Tuli, Bhishma Dedhia, Shreshth Tuli, and Niraj K. Jha
- Abstract要約: 本稿では,多種多様な演算可能なエンコーダ層を有する多種多様なモデルであるFlexiBERTを提案する。
また、この新たなスキーム、ベイズモデル、二階最適化を活用した新しいNASポリシーであるBOSHNASを提案する。
包括的な実験の結果、FlexiBERTの設計領域に適用された提案されたポリシーは、従来のモデルと比較してパフォーマンスのフロンティアを上方に押し上げる。
- 参考スコア(独自算出の注目度): 7.813154720635396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The existence of a plethora of language models makes the problem of selecting
the best one for a custom task challenging. Most state-of-the-art methods
leverage transformer-based models (e.g., BERT) or their variants. Training such
models and exploring their hyperparameter space, however, is computationally
expensive. Prior work proposes several neural architecture search (NAS) methods
that employ performance predictors (e.g., surrogate models) to address this
issue; however, analysis has been limited to homogeneous models that use fixed
dimensionality throughout the network. This leads to sub-optimal architectures.
To address this limitation, we propose a suite of heterogeneous and flexible
models, namely FlexiBERT, that have varied encoder layers with a diverse set of
possible operations and different hidden dimensions. For better-posed surrogate
modeling in this expanded design space, we propose a new graph-similarity-based
embedding scheme. We also propose a novel NAS policy, called BOSHNAS, that
leverages this new scheme, Bayesian modeling, and second-order optimization, to
quickly train and use a neural surrogate model to converge to the optimal
architecture. A comprehensive set of experiments shows that the proposed
policy, when applied to the FlexiBERT design space, pushes the performance
frontier upwards compared to traditional models. FlexiBERT-Mini, one of our
proposed models, has 3% fewer parameters than BERT-Mini and achieves 8.9%
higher GLUE score. A FlexiBERT model with equivalent performance as the best
homogeneous model achieves 2.6x smaller size. FlexiBERT-Large, another proposed
model, achieves state-of-the-art results, outperforming the baseline models by
at least 5.7% on the GLUE benchmark.
- Abstract(参考訳): 多くの言語モデルが存在するため、カスタムタスクに最も適した言語モデルを選択することが困難になる。
ほとんどの最先端の手法はトランスフォーマーベースのモデル(例えばBERT)またはその変種を利用する。
しかし、そのようなモデルのトレーニングとハイパーパラメータ空間の探索は計算コストがかかる。
先行研究では、性能予測器(サロゲートモデルなど)を用いてこの問題に対処するいくつかのニューラルアーキテクチャサーチ(NAS)手法が提案されているが、解析はネットワーク全体にわたって固定次元を使用する同質モデルに限られている。
これは準最適アーキテクチャに繋がる。
この制限に対処するため,多種多様な演算可能なエンコーダ層と異なる隠蔽次元を持つ不均一かつ柔軟なモデル,すなわちFlexiBERTを提案する。
この拡張設計空間におけるより優れたサロゲートモデリングのために,グラフ類似性に基づく新しい埋め込み方式を提案する。
我々はまた、この新たなスキーム、ベイズモデル、二階最適化を活用して、ニューラルサロゲートモデルを迅速に訓練し、最適なアーキテクチャに収束させる、BOSHNASと呼ばれる新しいNASポリシーを提案する。
包括的な実験の結果、FlexiBERTの設計領域に適用された提案されたポリシーは、従来のモデルと比較してパフォーマンスのフロンティアを上方に押し上げる。
提案したモデルの1つであるFlexiBERT-Miniは、BERT-Miniよりも3%少ないパラメータを持ち、GLUEスコアが8.9%高い。
最良等質モデルとして同等の性能を持つフレキシベルトモデルは2.6倍小さいサイズを達成する。
もう1つの提案モデルであるflexibert-largeは最先端の結果を達成し、glueベンチマークで最低5.7%のベースラインモデルを上回っている。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Fairer and More Accurate Tabular Models Through NAS [14.147928131445852]
本稿では,多目的ニューラルアーキテクチャサーチ (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。
我々はNASで精度のみに最適化されたモデルが、本質的に公正な懸念に対処できないことをしばしば示している。
公平性、正確性、あるいは両方において、最先端のバイアス緩和手法を一貫して支配するアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-10-18T17:56:24Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Tiny Neural Models for Seq2Seq [0.0]
pQRNN-MAttと呼ばれるプロジェクションベースエンコーダデコーダモデルを提案する。
その結果得られた量子化モデルのサイズは3.5MB未満であり、デバイス上のレイテンシクリティカルなアプリケーションに適している。
本稿では,多言語意味解析データセットであるMTOPにおいて,平均モデル性能が,85倍の精度で事前学習した埋め込みを用いたLSTMベースのSeq2seqモデルを上回ることを示す。
論文 参考訳(メタデータ) (2021-08-07T00:39:42Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。