論文の概要: Improving Spoken Language Understanding By Exploiting ASR N-best
Hypotheses
- arxiv url: http://arxiv.org/abs/2001.05284v1
- Date: Sat, 11 Jan 2020 05:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 09:44:48.993174
- Title: Improving Spoken Language Understanding By Exploiting ASR N-best
Hypotheses
- Title(参考訳): ASR N-best仮説の発散による音声言語理解の改善
- Authors: Mingda Li, Weitong Ruan, Xinyue Liu, Luca Soldaini, Wael Hamza,
Chengwei Su
- Abstract要約: 自然言語理解(NLU)モジュールは、自動音声認識(ASR)モジュールから音声を入力として解釈する。
ASRモジュールは一部の音声を誤認識する可能性があり、最初の最良の解釈は誤認とノイズである可能性がある。
入力音声のセマンティクスの理解を改善するための,単純かつ効率的なモデルをいくつか導入する。
- 参考スコア(独自算出の注目度): 22.332683746361294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a modern spoken language understanding (SLU) system, the natural language
understanding (NLU) module takes interpretations of a speech from the automatic
speech recognition (ASR) module as the input. The NLU module usually uses the
first best interpretation of a given speech in downstream tasks such as domain
and intent classification. However, the ASR module might misrecognize some
speeches and the first best interpretation could be erroneous and noisy. Solely
relying on the first best interpretation could make the performance of
downstream tasks non-optimal. To address this issue, we introduce a series of
simple yet efficient models for improving the understanding of semantics of the
input speeches by collectively exploiting the n-best speech interpretations
from the ASR module.
- Abstract(参考訳): 現代音声言語理解(slu)システムでは、自然言語理解(nlu)モジュールは、自動音声認識(asr)モジュールから音声の解釈を入力として取り込む。
nluモジュールは通常、ドメインやインテントの分類のような下流タスクで与えられた音声の最初の最善の解釈を使用する。
しかし、ASRモジュールは一部の音声を誤認識する可能性があり、最初の最良の解釈は誤りでありうる。
最初の最高の解釈を頼りにすれば、下流タスクのパフォーマンスは最適ではない。
そこで本研究では,asrモジュールからのn-best音声解釈を総合的に活用することにより,入力音声の意味理解を改善するための簡易かつ効率的なモデルを提案する。
関連論文リスト
- DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z) - Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation [15.225080891662675]
音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。
LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
論文 参考訳(メタデータ) (2020-05-17T10:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。