論文の概要: Creating Spoken Dialog Systems in Ultra-Low Resourced Settings
- arxiv url: http://arxiv.org/abs/2312.06266v1
- Date: Mon, 11 Dec 2023 10:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:04:22.552682
- Title: Creating Spoken Dialog Systems in Ultra-Low Resourced Settings
- Title(参考訳): 超低資源環境における音声対話システムの構築
- Authors: Moayad Elamin, Muhammad Omer, Yonas Chanie, Henslaac Ndlovu
- Abstract要約: 我々はフレミッシュにおける意図分類のための既存の光モデルを構築している。
音声レベルと音声書き起こしレベルという2つのレベルに異なる拡張手法を適用した。
両レベルにおいて、我々のデータ拡張技術は、多くのタスクにおけるモデルパフォーマンスを改善していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems are a crucial technology that is
used today to design a wide variety of applications, most notably, smart
assistants, such as Alexa. ASR systems are essentially dialogue systems that
employ Spoken Language Understanding (SLU) to extract meaningful information
from speech. The main challenge with designing such systems is that they
require a huge amount of labeled clean data to perform competitively, such data
is extremely hard to collect and annotate to respective SLU tasks, furthermore,
when designing such systems for low resource languages, where data is extremely
limited, the severity of the problem intensifies. In this paper, we focus on a
fairly popular SLU task, that is, Intent Classification while working with a
low resource language, namely, Flemish. Intent Classification is a task
concerned with understanding the intents of the user interacting with the
system. We build on existing light models for intent classification in Flemish,
and our main contribution is applying different augmentation techniques on two
levels -- the voice level, and the phonetic transcripts level -- to the
existing models to counter the problem of scarce labeled data in low-resource
languages. We find that our data augmentation techniques, on both levels, have
improved the model performance on a number of tasks.
- Abstract(参考訳): 自動音声認識(ASR)システムは、Alexaなど、さまざまなアプリケーション、特にスマートアシスタントを設計するために今日使用されている重要な技術である。
ASRシステムは基本的に音声から意味のある情報を抽出するために音声言語理解(SLU)を用いる対話システムである。
このようなシステムを設計する上での最大の課題は、競争的に実行するために大量のラベル付きクリーンなデータを必要とすることだ。これらのデータはsluタスクの収集や注釈が極めて困難であり、さらにデータが極めて制限された低リソース言語向けに設計する場合、問題の重大さが増大する。
本稿では,比較的一般的なsluタスク,すなわち,低リソース言語である flemish を用いて作業中の意図分類に注目する。
Intent Classificationは、システムと対話するユーザの意図を理解するためのタスクである。
我々は,Flemishにおける意図分類のための既存の光モデルを構築し,低リソース言語におけるラベル付きデータ不足の問題に対処するため,音声レベルと音声書き起こしレベルという2つのレベルに異なる拡張手法を適用した。
両レベルにおいて、我々のデータ拡張技術は、多くのタスクにおけるモデルパフォーマンスを改善していることがわかった。
関連論文リスト
- Balancing Accuracy and Efficiency in Multi-Turn Intent Classification for LLM-Powered Dialog Systems in Production [6.459396785817196]
本稿では,本システムにおけるスケーラビリティ向上と遅延低減のための新しい2つのアプローチを提案する。
まず,タスクの複雑さを低減し,マルチターン対話におけるパフォーマンスを向上させるために,意図ラベルを簡略化するシンボリックチューニングを提案する。
第2に,データ拡張と擬似ラベル作成にLLMを用いるフレームワークであるC-LARAを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:48:35Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - On Building Spoken Language Understanding Systems for Low Resourced
Languages [1.2183405753834562]
極端に低リソースな環境を探索する一連の実験を提示する。
インテント毎に1つのデータポイントをトレーニングし、データセットに1つの話者しか持たないシステムでインテント分類を行う。
このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いる場合、音声特徴を用いた場合よりもかなり良い結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T14:44:51Z) - Data Augmentation with Paraphrase Generation and Entity Extraction for
Multimodal Dialogue System [9.912419882236918]
我々は,小学生が基本数学の概念を学ぶための多モーダル対話システムに向けて研究している。
本研究では,音声対話システムパイプラインの自然言語理解モジュールのパラフレーズ生成によるデータ拡張の可能性を探る。
我々は,小型シードデータを用いたモデル・イン・ザ・ループ(MITL)戦略のパラフレーズ化が,インテント認識タスクの性能改善をもたらす有望なアプローチであることを示した。
論文 参考訳(メタデータ) (2022-05-09T02:21:20Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Low-Resource Spoken Language Identification Using Self-Attentive Pooling
and Deep 1D Time-Channel Separable Convolutions [0.0]
本稿では,言語識別タスクの低リソース設定において,自己認識型プーリング層を用いた畳み込みニューラルネットワークが有望な結果を示すことを示す。
また、性別、年齢などの他の分類要素が良好に評価されるようにデータセットが十分に多様である場合、LIDシステムの混乱行列が言語類似度測定を担っているという仮説を定式化する。
論文 参考訳(メタデータ) (2021-05-31T18:35:27Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。