論文の概要: End-to-End Spoken Language Understanding Without Full Transcripts
- arxiv url: http://arxiv.org/abs/2009.14386v1
- Date: Wed, 30 Sep 2020 01:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:01:36.049149
- Title: End-to-End Spoken Language Understanding Without Full Transcripts
- Title(参考訳): 全文を含まないエンドツーエンドの音声言語理解
- Authors: Hong-Kwang J. Kuo, Zolt\'an T\"uske, Samuel Thomas, Yinghui Huang,
Kartik Audhkhasi, Brian Kingsbury, Gakuto Kurata, Zvi Kons, Ron Hoory, and
Luis Lastras
- Abstract要約: 音声入力を直接意味的エンティティに変換するエンド・ツー・エンド(E2E)音声言語理解システムを開発した。
CTCモデルとアテンションベースのエンコーダ・デコーダモデルという2つのタイプを作成した。
ATISコーパスにおける発話・発話実験では、CTCとアテンションモデルの両方が、非発話語をスキップする印象的な能力を示した。
- 参考スコア(独自算出の注目度): 38.19173637496798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An essential component of spoken language understanding (SLU) is slot
filling: representing the meaning of a spoken utterance using semantic entity
labels. In this paper, we develop end-to-end (E2E) spoken language
understanding systems that directly convert speech input to semantic entities
and investigate if these E2E SLU models can be trained solely on semantic
entity annotations without word-for-word transcripts. Training such models is
very useful as they can drastically reduce the cost of data collection. We
created two types of such speech-to-entities models, a CTC model and an
attention-based encoder-decoder model, by adapting models trained originally
for speech recognition. Given that our experiments involve speech input, these
systems need to recognize both the entity label and words representing the
entity value correctly. For our speech-to-entities experiments on the ATIS
corpus, both the CTC and attention models showed impressive ability to skip
non-entity words: there was little degradation when trained on just entities
versus full transcripts. We also explored the scenario where the entities are
in an order not necessarily related to spoken order in the utterance. With its
ability to do re-ordering, the attention model did remarkably well, achieving
only about 2% degradation in speech-to-bag-of-entities F1 score.
- Abstract(参考訳): 音声言語理解(slu)の重要な構成要素はスロット充填(slot fill)である。
本稿では,音声入力を直接意味的エンティティに変換するエンド・ツー・エンド(E2E)音声言語理解システムを開発した。
このようなモデルのトレーニングは、データ収集のコストを大幅に削減できるため、非常に有用です。
音声認識のために訓練されたモデルを適応させることにより,ctcモデルと注意に基づくエンコーダ・デコーダモデルという2種類の音声対関係モデルを作成した。
実験では音声入力が関係していることを考えると,エンティティラベルとエンティティ値を表す単語の両方を正しく認識する必要がある。
ATISコーパスでのスピーチ・トゥ・エンティリティ実験では、CTCとアテンションモデルの両方が、非エンティリティ語をスキップする印象的な能力を示した。
また,発話中の発話順序に必ずしも関係しない順序のエンティティが存在するシナリオについても検討した。
再注文が可能であったため, 注意モデルは非常に良好であり, F1得点は2%程度しか低下しなかった。
関連論文リスト
- Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Improving End-to-End Models for Set Prediction in Spoken Language
Understanding [26.781489293420055]
本稿では、音声の順序を推測する暗黙の注意に基づくアライメント手法とともに、新しいデータ拡張手法を提案する。
F1スコアは、RNN-Tでは11%以上、注意に基づくエンコーダデコーダSLUモデルでは2%以上増加し、これまで報告された結果を上回った。
論文 参考訳(メタデータ) (2022-01-28T13:23:17Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - Towards Semi-Supervised Semantics Understanding from Speech [15.672850567147854]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
論文 参考訳(メタデータ) (2020-11-11T01:48:09Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。