論文の概要: Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages
- arxiv url: http://arxiv.org/abs/2404.02588v1
- Date: Wed, 3 Apr 2024 09:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:50:35.129058
- Title: Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages
- Title(参考訳): 音声言語理解システムの新しい言語への拡張のための大規模言語モデル
- Authors: Jakub Hoscilowicz, Pawel Pawlowski, Marcin Skorupa, Marcin Sowański, Artur Janicki,
- Abstract要約: Spoken Language Understanding(SLU)モデルは、Alexa、Bixby、Google Assistantなどの音声アシスタント(VA)のコアコンポーネントである。
本稿では,Large Language Models (LLM) を利用して,SLUシステムを新しい言語に拡張するパイプラインを提案する。
当社のアプローチは,mBERTモデルを用いたクラウドシナリオにおいて,主要なマルチ言語SLUデータセットであるMultiATIS++ベンチマークを改善した。
- 参考スコア(独自算出の注目度): 0.20971479389679337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Understanding (SLU) models are a core component of voice assistants (VA), such as Alexa, Bixby, and Google Assistant. In this paper, we introduce a pipeline designed to extend SLU systems to new languages, utilizing Large Language Models (LLMs) that we fine-tune for machine translation of slot-annotated SLU training data. Our approach improved on the MultiATIS++ benchmark, a primary multi-language SLU dataset, in the cloud scenario using an mBERT model. Specifically, we saw an improvement in the Overall Accuracy metric: from 53% to 62.18%, compared to the existing state-of-the-art method, Fine and Coarse-grained Multi-Task Learning Framework (FC-MTLF). In the on-device scenario (tiny and not pretrained SLU), our method improved the Overall Accuracy from 5.31% to 22.06% over the baseline Global-Local Contrastive Learning Framework (GL-CLeF) method. Contrary to both FC-MTLF and GL-CLeF, our LLM-based machine translation does not require changes in the production architecture of SLU. Additionally, our pipeline is slot-type independent: it does not require any slot definitions or examples.
- Abstract(参考訳): Spoken Language Understanding(SLU)モデルは、Alexa、Bixby、Google Assistantなどの音声アシスタント(VA)のコアコンポーネントである。
本稿では,スロットアノテートされたSLU学習データの機械翻訳にLarge Language Models (LLMs) を用いて,SLUシステムを新しい言語に拡張するパイプラインを提案する。
当社のアプローチは,mBERTモデルを用いたクラウドシナリオにおいて,主要なマルチ言語SLUデータセットであるMultiATIS++ベンチマークを改善した。
具体的には、既存の最先端手法であるファイン・アンド・粗粒なマルチタスク学習フレームワーク(FC-MTLF)と比較して、53%から62.18%に改善した。
デバイス上でのシナリオ(未学習のSLU)では,Global-Local Contrastive Learning Framework(GL-CLeF)法よりも5.31%から22.06%に向上した。
FC-MTLF と GL-CLeF とは対照的に,LLM をベースとした機械翻訳では,SLU の生産アーキテクチャの変更は不要である。
さらに、私たちのパイプラインはスロットタイプの独立性があり、スロット定義や例は一切必要ありません。
関連論文リスト
- Do Large Language Model Understand Multi-Intent Spoken Language ? [5.494472119991781]
この研究は、多言語言語理解(SLU)におけるLarge Language Models(LLM)の利用において、大きなブレークスルーを示すものである。
本稿では,マルチインテリジェントSLUアプリケーションにおけるエンティティスロットの利用について再検討する。
本稿では,複雑なマルチインテント通信の分析と解釈を増幅するために,サブインテントインストラクション(SII)の概念を導入する。
論文 参考訳(メタデータ) (2024-03-07T13:30:52Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - OpenSLU: A Unified, Modularized, and Extensible Toolkit for Spoken
Language Understanding [57.48730496422474]
Spoken Language Understanding (SLU) はタスク指向対話システムの中核となるコンポーネントの一つである。
OpenSLUは、言語理解のための統一的でモジュール化されたツールキットを提供するオープンソースツールキットである。
論文 参考訳(メタデータ) (2023-05-17T14:12:29Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet [95.39817519115394]
ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。
単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
論文 参考訳(メタデータ) (2021-11-29T17:05:49Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。