論文の概要: Effectiveness of Text, Acoustic, and Lattice-based representations in
Spoken Language Understanding tasks
- arxiv url: http://arxiv.org/abs/2212.08489v1
- Date: Fri, 16 Dec 2022 14:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:36:03.931284
- Title: Effectiveness of Text, Acoustic, and Lattice-based representations in
Spoken Language Understanding tasks
- Title(参考訳): 音声言語理解タスクにおけるテキスト・音響・格子に基づく表現の有効性
- Authors: Esa\'u Villatoro-Tello, Srikanth Madikeri, Juan Zuluaga-Gomez, Bidisha
Sharma, Seyyed Saeed Sarfjoo, Iuliia Nigmatulina, Petr Motlicek, Alexei V.
Ivanov, Aravind Ganapathiraju
- Abstract要約: インテント検出タスクを実行するために,3種類のシステムをベンチマークする。
本研究では,公用SLURP音声言語資源コーパスのシステム評価を行う。
- 参考スコア(独自算出の注目度): 5.66060067322059
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we perform an exhaustive evaluation of different
representations to address the intent classification problem in a Spoken
Language Understanding (SLU) setup. We benchmark three types of systems to
perform the SLU intent detection task: 1) text-based, 2) lattice-based, and a
novel 3) multimodal approach. Our work provides a comprehensive analysis of
what could be the achievable performance of different state-of-the-art SLU
systems under different circumstances, e.g., automatically- vs.
manually-generated transcripts. We evaluate the systems on the publicly
available SLURP spoken language resource corpus. Our results indicate that
using richer forms of Automatic Speech Recognition (ASR) outputs allows SLU
systems to improve in comparison to the 1-best setup (4% relative improvement).
However, crossmodal approaches, i.e., learning from acoustic and text
embeddings, obtains performance similar to the oracle setup, and a relative
improvement of 18% over the 1-best configuration. Thus, crossmodal
architectures represent a good alternative to overcome the limitations of
working purely automatically generated textual data.
- Abstract(参考訳): 本稿では,音声言語理解システム(SLU)における意図分類問題に対処するため,異なる表現を徹底的に評価する。
SLUインテント検出タスクを実行するために,3種類のシステムをベンチマークする。
1)テキストベース、
2)格子ベース、及び小説
3)マルチモーダルアプローチ。
我々の研究は、異なる状況下での様々な最先端SLUシステムの達成可能な性能、例えば、手動による書き起こしなどに関する包括的な分析を提供する。
本研究では,公用SLURP音声言語資源コーパスのシステム評価を行う。
その結果,asr(automatic speech recognition)出力のリッチな形態を用いることで,sluシステムは1-best設定(4%相対的改善)と比較して改善できることがわかった。
しかし、音響やテキストの埋め込みから学習するクロスモーダルなアプローチは、オラクルの設定と類似した性能と、1-best構成よりも18%の相対的な改善が得られる。
したがって、クロスモーダルアーキテクチャは、純粋に自動生成されたテキストデータを扱うという制限を克服する良い方法である。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - On Building Spoken Language Understanding Systems for Low Resourced
Languages [1.2183405753834562]
極端に低リソースな環境を探索する一連の実験を提示する。
インテント毎に1つのデータポイントをトレーニングし、データセットに1つの話者しか持たないシステムでインテント分類を行う。
このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いる場合、音声特徴を用いた場合よりもかなり良い結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T14:44:51Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。