Fugu-MT 論文翻訳(概要): AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models

論文の概要: AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2107.13686v1
Date: Thu, 29 Jul 2021 00:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-30 13:25:27.101152
Title: AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models
Title（参考訳）: AutoTinyBERT:効率的な事前学習言語モデルのハイパーパラメータ自動最適化
Authors: Yichun Yin, Cheng Chen, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu
Abstract要約: アーキテクチャのハイパーパラメータを自動的に検索するために,NAS(One-shot Neural Architecture Search)を採用している。具体的には,小型PLMの適応的かつ効率的な開発方法を提供するために,ワンショット学習の技術と検索空間を設計する。提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
参考スコア（独自算出の注目度）: 46.69439585453071
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models (PLMs) have achieved great success in natural language processing. Most of PLMs follow the default setting of architecture hyper-parameters (e.g., the hidden dimension is a quarter of the intermediate dimension in feed-forward sub-networks) in BERT (Devlin et al., 2019). Few studies have been conducted to explore the design of architecture hyper-parameters in BERT, especially for the more efficient PLMs with tiny sizes, which are essential for practical deployment on resource-constrained devices. In this paper, we adopt the one-shot Neural Architecture Search (NAS) to automatically search architecture hyper-parameters. Specifically, we carefully design the techniques of one-shot learning and the search space to provide an adaptive and efficient development way of tiny PLMs for various latency constraints. We name our method AutoTinyBERT and evaluate its effectiveness on the GLUE and SQuAD benchmarks. The extensive experiments show that our method outperforms both the SOTA search-based baseline (NAS-BERT) and the SOTA distillation-based methods (such as DistilBERT, TinyBERT, MiniLM and MobileBERT). In addition, based on the obtained architectures, we propose a more efficient development method that is even faster than the development of a single PLM.
Abstract（参考訳）: プレトレーニング言語モデル(PLM)は自然言語処理において大きな成功を収めている。 PLMの多くは、BERT (Devlin et al., 2019) におけるアーキテクチャハイパーパラメータのデフォルト設定(例えば、隠れ次元はフィードフォワードサブネットワークにおける中間次元の4分の1)に従う。 BERTにおけるアーキテクチャハイパーパラメータの設計,特に資源制約されたデバイスへの実用的展開に不可欠な,小型のより効率的なPLMについて,いくつかの研究がなされている。本稿では,アーキテクチャのハイパーパラメータの自動検索にNAS(One-shot Neural Architecture Search)を採用する。具体的には,単発学習の手法と探索空間を慎重に設計し,様々な遅延制約に対する小さなPLMの適応的かつ効率的な開発方法を提供する。提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。実験により,本手法は,SOTA検索ベースライン(NAS-BERT)とSOTA蒸留ベースライン(DistilBERT,TinyBERT,MiniLM,MobileBERT)のどちらよりも優れていることが示された。また、得られたアーキテクチャに基づいて、単一のPLMの開発よりも高速な効率的な開発手法を提案する。

関連論文リスト

ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文参考訳（メタデータ） (2025-03-24T13:11:22Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Structural Pruning of Pre-trained Language Models via Neural Architecture Search [7.833790713816726]
事前学習された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された自然言語理解タスクの最先端である。本稿では, 最適トレードオフ効率を有する微調整ネットワークのサブ部分を見つけるために, 構造解析のためのニューラルアーキテクチャ探索(NAS)について検討する。
論文参考訳（メタデータ） (2024-05-03T17:34:57Z)
Fairer and More Accurate Tabular Models Through NAS [14.147928131445852]
本稿では,多目的ニューラルアーキテクチャサーチ (NAS) とハイパーパラメータ最適化 (HPO) を,表データの非常に困難な領域への最初の応用として提案する。我々はNASで精度のみに最適化されたモデルが、本質的に公正な懸念に対処できないことをしばしば示している。公平性、正確性、あるいは両方において、最先端のバイアス緩和手法を一貫して支配するアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-10-18T17:56:24Z)
Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models [25.33932250843436]
本研究では,構造的および非構造的プルーニングによるPETアーキテクチャの学習に有効なNAS手法を提案する。本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。
論文参考訳（メタデータ） (2023-05-26T03:01:07Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Deploying a BERT-based Query-Title Relevance Classifier in a Production System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。 BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。 BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。 BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文参考訳（メタデータ） (2021-08-23T14:28:23Z)
AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-07-15T16:46:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。