論文の概要: Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2310.16240v1
- Date: Tue, 24 Oct 2023 23:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:49:59.556615
- Title: Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルの改良と解釈のための混合言語訓練適応器
- Authors: Raymond Li, Gabriel Murray and Giuseppe Carenini
- Abstract要約: 本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
- 参考スコア(独自算出の注目度): 22.977852629450346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a method that combines two popular research areas by
injecting linguistic structures into pre-trained language models in the
parameter-efficient fine-tuning (PEFT) setting. In our approach, parallel
adapter modules encoding different linguistic structures are combined using a
novel Mixture-of-Linguistic-Experts architecture, where Gumbel-Softmax gates
are used to determine the importance of these modules at each layer of the
model. To reduce the number of parameters, we first train the model for a fixed
small number of steps before pruning the experts based on their importance
scores. Our experiment results with three different pre-trained models show
that our approach can outperform state-of-the-art PEFT methods with a
comparable number of parameters. In addition, we provide additional analysis to
examine the experts selected by each model at each layer to provide insights
for future studies.
- Abstract(参考訳): 本研究では,パラメータ効率のよい微調整(PEFT)設定において,言語構造を事前学習言語モデルに注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
このアプローチでは、異なる言語構造をエンコードする並列アダプタモジュールを、gumbel-softmaxゲートを使用してモデルの各層におけるこれらのモジュールの重要性を判断する、新しい混合言語専門家アーキテクチャを用いて結合する。
パラメータの数を減らすために、まず、その重要度に基づいて専門家を刈り取る前に、一定数のステップでモデルをトレーニングします。
実験の結果,3種類の事前学習モデルによる実験結果から,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることが示された。
さらに,各モデルで選択した専門家を各層で分析し,今後の研究に対する洞察を提供する。
関連論文リスト
- A Post-Training Enhanced Optimization Approach for Small Language Models [0.0]
本稿では,小言語モデルに対する連続的な学習後アライメントデータ構築法を提案する。
本手法のコアは大規模モデルのデータガイダンスに基づいて,アライメントデータの多様性と精度を最適化する。
論文 参考訳(メタデータ) (2024-11-05T09:32:26Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - Analyzing Bagging Methods for Language Models [0.5161531917413708]
我々は,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズで大まかに等価なタグ付きアンサンブルを比較した。
我々のアンサンブル法は、少なくとも1つのLMベースラインとほぼ同等である。
論文 参考訳(メタデータ) (2022-07-19T06:30:37Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。