論文の概要: Large-scale Transfer Learning for Low-resource Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2008.05671v1
- Date: Thu, 13 Aug 2020 03:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:39:17.785118
- Title: Large-scale Transfer Learning for Low-resource Spoken Language
Understanding
- Title(参考訳): 低リソース音声理解のための大規模転送学習
- Authors: Xueli Jia, Jianzong Wang, Zhiyong Zhang, Ning Cheng, Jing Xiao
- Abstract要約: 本稿では,3つのエンコーダ拡張戦略とともに,注意に基づく音声言語理解モデルを提案する。
言語間の移動学習とマルチタスク戦略は,ベースラインと比較して最大4:52%,3:89%改善されている。
- 参考スコア(独自算出の注目度): 31.013231069185387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Spoken Language Understanding (SLU) models are made increasingly
large and complex to achieve the state-ofthe-art accuracy. However, the
increased complexity of a model can also introduce high risk of over-fitting,
which is a major challenge in SLU tasks due to the limitation of available
data. In this paper, we propose an attention-based SLU model together with
three encoder enhancement strategies to overcome data sparsity challenge. The
first strategy focuses on the transferlearning approach to improve feature
extraction capability of the encoder. It is implemented by pre-training the
encoder component with a quantity of Automatic Speech Recognition annotated
data relying on the standard Transformer architecture and then fine-tuning the
SLU model with a small amount of target labelled data. The second strategy
adopts multitask learning strategy, the SLU model integrates the speech
recognition model by sharing the same underlying encoder, such that improving
robustness and generalization ability. The third strategy, learning from
Component Fusion (CF) idea, involves a Bidirectional Encoder Representation
from Transformer (BERT) model and aims to boost the capability of the decoder
with an auxiliary network. It hence reduces the risk of over-fitting and
augments the ability of the underlying encoder, indirectly. Experiments on the
FluentAI dataset show that cross-language transfer learning and multi-task
strategies have been improved by up to 4:52% and 3:89% respectively, compared
to the baseline.
- Abstract(参考訳): SLU(End-to-end Spoken Language Understanding)モデルは、最先端の精度を達成するために、ますます大きく複雑化している。
しかし、モデルの複雑さが増大すると、過剰適合のリスクも高くなるため、利用可能なデータの制限により、SLUタスクにおいて大きな課題となる。
本稿では,3つのエンコーダ拡張戦略とともに,注意に基づくSLUモデルを提案する。
最初の戦略は、エンコーダの特徴抽出能力を改善するためのトランスファーラーニングアプローチに焦点を当てる。
エンコーダコンポーネントを標準トランスフォーマーアーキテクチャに依存した多数の自動音声認識アノテートデータで事前学習し、少量のターゲットラベル付きデータでSLUモデルを微調整することで実装する。
第2の戦略はマルチタスク学習戦略を採用し、SLUモデルは、ロバスト性や一般化能力の向上など、同じ基盤となるエンコーダを共有することによって音声認識モデルを統合する。
第3の戦略は、コンポーネントフュージョン(CF)の概念から学び、変換器(BERT)モデルからの双方向エンコーダ表現を伴い、補助的なネットワークでデコーダの能力を高めることを目的としている。
これにより、過度に適合するリスクを減らし、基盤となるエンコーダの能力を間接的に増強する。
FluentAIデータセットの実験によると、ベースラインと比較して、クロスランゲージトランスファー学習とマルチタスク戦略がそれぞれ4:52%と3:89%改善している。
関連論文リスト
- A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - BLINC: Lightweight Bimodal Learning for Low-Complexity VVC Intra Coding [5.629161809575015]
Versatile Video Coding (VVC) は,前任のHEVC (High Efficiency Video Coding) と比較して,ほぼ2倍の符号化効率を実現している。
本稿では,2つの特徴を共同で個別に活用し,イントラコーディング決定を簡素化する,新しい機械学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T19:12:41Z) - Online Deep Learning based on Auto-Encoder [4.128388784932455]
オートエンコーダ(ODLAE)に基づく2段階オンライン深層学習を提案する。
復元損失を考慮した自動エンコーダを用いて,インスタンスの階層的潜在表現を抽出する。
我々は,各隠れ層の分類結果を融合して得られる出力レベル融合戦略と,隠れ層の出力を融合させる自己保持機構を利用した特徴レベル融合戦略の2つの融合戦略を考案した。
論文 参考訳(メタデータ) (2022-01-19T02:14:57Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。