論文の概要: Adaptable Multi-Domain Language Model for Transformer ASR
- arxiv url: http://arxiv.org/abs/2008.06208v2
- Date: Thu, 11 Feb 2021 03:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:47:06.889487
- Title: Adaptable Multi-Domain Language Model for Transformer ASR
- Title(参考訳): トランスフォーマーasrの適応型マルチドメイン言語モデル
- Authors: Taewoo Lee, Min-Joong Lee, Tae Gyoon Kang, Seokyeoung Jung, Minseok
Kwon, Yeona Hong, Jungin Lee, Kyoung-Gu Woo, Ho-Gyeong Kim, Jiseung Jeong,
Jihyun Lee, Hosik Lee, Young Sang Choi
- Abstract要約: 提案モデルでは,原モデルのすべての層を用いて微調整された完全微調整LMを再利用することができる。
提案モデルはまた,コストと時間を要する共通LM事前学習プロセスを省くことができるため,モデル保守コストの低減にも有効である。
- 参考スコア(独自算出の注目度): 16.8397357399749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an adapter based multi-domain Transformer based language model
(LM) for Transformer ASR. The model consists of a big size common LM and small
size adapters. The model can perform multi-domain adaptation with only the
small size adapters and its related layers. The proposed model can reuse the
full fine-tuned LM which is fine-tuned using all layers of an original model.
The proposed LM can be expanded to new domains by adding about 2% of parameters
for a first domain and 13% parameters for after second domain. The proposed
model is also effective in reducing the model maintenance cost because it is
possible to omit the costly and time-consuming common LM pre-training process.
Using proposed adapter based approach, we observed that a general LM with
adapter can outperform a dedicated music domain LM in terms of word error rate
(WER).
- Abstract(参考訳): 本稿では,Transformer ASRのためのアダプタベースマルチドメイントランスフォーマーベース言語モデル(LM)を提案する。
モデルは大型の共通LMと小型アダプタで構成されている。
このモデルは、小型アダプタとその関連レイヤのみを用いてマルチドメイン適応を行うことができる。
提案モデルでは,原モデルのすべての層を用いて微調整された完全微調整LMを再利用することができる。
提案されたlmは、第1ドメインのパラメータの約2%と第2ドメインの後のパラメータの13%を追加することで、新しいドメインに拡張できる。
提案モデルはまた,コストと時間を要する共通LM事前学習プロセスを省くことができるため,メンテナンスコストの削減にも有効である。
提案するアダプタベースアプローチを用いて,一般の lm with adapter がワードエラー率 (wer) の点で音楽領域 lm を上回ることを発見した。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。
ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文 参考訳(メタデータ) (2024-07-04T18:21:28Z) - Plug-and-Play Transformer Modules for Test-Time Adaptation [54.80435317208111]
PLUTO: Plug-and-pLay modUlar Test-time Domain AdatiOn戦略を紹介する。
私たちは、それぞれ異なるソースドメインに特化した、大規模なモジュールセットを事前訓練します。
単一の推論コールで複数の最も関連性の高いソースドメインを利用する。
論文 参考訳(メタデータ) (2024-01-06T00:24:50Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z) - CombLM: Adapting Black-Box Language Models through Small Fine-Tuned
Models [43.28607973774104]
言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを前提としてきた。
重み付けや中間的アクティベーションへのアクセスを前提に,大規模LMを新しい領域やタスクに適用するための軽量な手法を提案する。
提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルで大きなブラックボックスLMと組み合わせることである。
論文 参考訳(メタデータ) (2023-05-23T06:32:55Z) - Beyond Universal Transformer: block reusing with adaptor in Transformer
for automatic speech recognition [2.5680214354539803]
本稿では,エッジデバイスへのASRの適用のために,Transformerモデルのブロックを再利用可能なソリューションを提案する。
具体的には、パラメータの有効性を高めるために、音声変換器(BRST)の新しいブロック再利用戦略を設計する。
論文 参考訳(メタデータ) (2023-03-23T06:54:37Z) - AdapterSoup: Weight Averaging to Improve Generalization of Pretrained
Language Models [127.04370753583261]
事前訓練された言語モデル(PLM)は、大規模なコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では、異なるドメインでトレーニングされたアダプタの重量空間平均化を行うAdapterSoupを紹介する。
論文 参考訳(メタデータ) (2023-02-14T13:09:23Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。