論文の概要: EPIK: Eliminating multi-model Pipelines with Knowledge-distillation
- arxiv url: http://arxiv.org/abs/2211.14920v1
- Date: Sun, 27 Nov 2022 19:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:13:20.890141
- Title: EPIK: Eliminating multi-model Pipelines with Knowledge-distillation
- Title(参考訳): EPIK:知識蒸留による多モデルパイプラインの除去
- Authors: Bhavesh Laddagiri, Yash Raj, Anshuman Dash
- Abstract要約: MATRaのようなモデルでは、クロスリンガル翻訳を2段階に分けて行う。
本研究では, 階層的タスクのための2段階パイプラインを1つのエンド・ツー・エンド・モデルに縮合する新しい蒸留手法 EPIK を提案する。
EPIKモデルは平均CERスコア0.015、平均音韻精度92.1%で音訳を行うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world tasks are largely composed of multiple models, each performing a
sub-task in a larger chain of tasks, i.e., using the output from a model as
input for another model in a multi-model pipeline. A model like MATRa performs
the task of Crosslingual Transliteration in two stages, using English as an
intermediate transliteration target when transliterating between two indic
languages. We propose a novel distillation technique, EPIK, that condenses
two-stage pipelines for hierarchical tasks into a single end-to-end model
without compromising performance. This method can create end-to-end models for
tasks without needing a dedicated end-to-end dataset, solving the data scarcity
problem. The EPIK model has been distilled from the MATra model using this
technique of knowledge distillation. The MATra model can perform crosslingual
transliteration between 5 languages - English, Hindi, Tamil, Kannada and
Bengali. The EPIK model executes the task of transliteration without any
intermediate English output while retaining the performance and accuracy of the
MATra model. The EPIK model can perform transliteration with an average CER
score of 0.015 and average phonetic accuracy of 92.1%. In addition, the average
time for execution has reduced by 54.3% as compared to the teacher model and
has a similarity score of 97.5% with the teacher encoder. In a few cases, the
EPIK model (student model) can outperform the MATra model (teacher model) even
though it has been distilled from the MATra model.
- Abstract(参考訳): 実世界のタスクは、主に複数のモデルで構成されており、それぞれがより大きなタスクチェーンでサブタスクを実行する。
マトラのようなモデルは2つの段階において言語間翻訳のタスクを実行し、英語を2つの言語間翻訳の中間的対象として使用する。
そこで本研究では,階層型タスクのための2段階パイプラインを,性能を損なうことなく単一エンドツーエンドモデルに凝縮する新しい蒸留手法 EPIK を提案する。
この方法は、専用のエンドツーエンドデータセットを必要とせずに、タスクのエンドツーエンドモデルを作成することができ、データの不足問題を解決する。
epikモデルはこの知識蒸留技術を用いてマトラモデルから蒸留されている。
マトラモデルは英語、ヒンディー語、タミル語、カンナダ語、ベンガル語という5つの言語間の言語間翻訳を行うことができる。
EPIKモデルは、MATraモデルの性能と正確性を保ちながら、中間的な英語出力なしで音訳タスクを実行する。
EPIKモデルは平均CERスコア0.015、平均音韻精度92.1%で音訳を行うことができる。
また、教師モデルと比較して平均実行時間が54.3%減少し、教師エンコーダとの類似点が97.5%となった。
いくつかのケースでは、EPIKモデル(学生モデル)は、MATraモデルから蒸留したとしても、MATraモデル(教師モデル)よりも優れている。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。