論文の概要: LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task
Learning
- arxiv url: http://arxiv.org/abs/2101.03024v2
- Date: Mon, 29 Mar 2021 14:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:37:30.195524
- Title: LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task
Learning
- Title(参考訳): LiteMuL:マルチタスク学習を用いた軽量オンデバイスシーケンスタガー
- Authors: Sonal Kumari, Vibhav Agarwal, Bharath Challa, Kranti Chalamalasetti,
Sourav Ghosh, Harshavardhana, Barath Raj Kandur Raja
- Abstract要約: LiteMuLは、マルチタスク学習アプローチを使用してユーザーの会話を効率的に処理できる軽量のオンデバイスシーケンスタグガーです。
我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。
- 参考スコア(独自算出の注目度): 1.3192560874022086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Named entity detection and Parts-of-speech tagging are the key tasks for many
NLP applications. Although the current state of the art methods achieved near
perfection for long, formal, structured text there are hindrances in deploying
these models on memory-constrained devices such as mobile phones. Furthermore,
the performance of these models is degraded when they encounter short,
informal, and casual conversations. To overcome these difficulties, we present
LiteMuL - a lightweight on-device sequence tagger that can efficiently process
the user conversations using a Multi-Task Learning (MTL) approach. To the best
of our knowledge, the proposed model is the first on-device MTL neural model
for sequence tagging. Our LiteMuL model is about 2.39 MB in size and achieved
an accuracy of 0.9433 (for NER), 0.9090 (for POS) on the CoNLL 2003 dataset.
The proposed LiteMuL not only outperforms the current state of the art results
but also surpasses the results of our proposed on-device task-specific models,
with accuracy gains of up to 11% and model-size reduction by 50%-56%. Our model
is competitive with other MTL approaches for NER and POS tasks while outshines
them with a low memory footprint. We also evaluated our model on custom-curated
user conversations and observed impressive results.
- Abstract(参考訳): 名前付きエンティティ検出と音声タグ付けは多くのNLPアプリケーションにおいて重要なタスクである。
技術手法の現在の状態は、長いフォーマルな構造化されたテキストに対してほぼ完璧に達成されているが、携帯電話などのメモリ制限されたデバイスにこれらのモデルをデプロイする際の障害がある。
さらに、これらのモデルの性能は、短い、非公式、カジュアルな会話に遭遇したときに劣化する。
これらの課題を克服するために、マルチタスク学習(MTL)アプローチを用いてユーザ会話を効率的に処理できる軽量オンデバイスシーケンスタグであるLiteMuLを提案する。
我々の知る限り、提案モデルは、シーケンスタグ付けのための最初のデバイス上でのMTLニューラルモデルである。
我々の LiteMuL モデルは、約 2.39 MB の大きさで、精度は 0.9433 (NER) であり、CoNLL 2003 データセットでは 0.9090 (POS) である。
提案したLiteMuLは,技術結果の現況を上回るだけでなく,提案したオンデバイスタスク固有モデルの精度を最大11%向上し,モデルサイズを50%-56%削減した。
我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。
また,カスタマイズされたユーザ会話のモデルも評価し,印象的な結果を得た。
関連論文リスト
- MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Herd: Using multiple, smaller LLMs to match the performances of proprietary, large LLMs via an intelligent composer [1.3108652488669732]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - pNLP-Mixer: an Efficient all-MLP Architecture for Language [10.634940525287014]
オンデバイスNLPのためのpNLP-Mixerモデルは、新しいプロジェクション層により高い重量効率を実現する。
MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。
私たちのモデルは、MTOPで最大7.8%のマージンで、2倍の大きさの小さなモデルの最先端を一貫して打ち負かしています。
論文 参考訳(メタデータ) (2022-02-09T09:01:29Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。
しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。
本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-19T02:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。