論文の概要: Improving End-to-End SLU performance with Prosodic Attention and
Distillation
- arxiv url: http://arxiv.org/abs/2305.08067v1
- Date: Sun, 14 May 2023 04:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 17:53:40.060175
- Title: Improving End-to-End SLU performance with Prosodic Attention and
Distillation
- Title(参考訳): 韻律的注意と蒸留による終端SLU性能の向上
- Authors: Shangeth Rajaa
- Abstract要約: 本稿では,韻律の特徴を異なる方法で用い,発話の時間枠にまたがる注意マップを生成する韻律アテンションを提案する。
また,暗黙的な韻律特徴を結合するのではなく,音響エンコーダの韻律情報を明示的に学習する韻律蒸留を提案する。
- 参考スコア(独自算出の注目度): 0.456877715768796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most End-to-End SLU methods depend on the pretrained ASR or language model
features for intent prediction. However, other essential information in speech,
such as prosody, is often ignored. Recent research has shown improved results
in classifying dialogue acts by incorporating prosodic information. The margins
of improvement in these methods are minimal as the neural models ignore
prosodic features. In this work, we propose prosody-attention, which uses the
prosodic features differently to generate attention maps across time frames of
the utterance. Then we propose prosody-distillation to explicitly learn the
prosodic information in the acoustic encoder rather than concatenating the
implicit prosodic features. Both the proposed methods improve the baseline
results, and the prosody-distillation method gives an intent classification
accuracy improvement of 8\% and 2\% on SLURP and STOP datasets over the prosody
baseline.
- Abstract(参考訳): ほとんどのエンドツーエンドSLU法は、意図予測のための事前訓練されたASRまたは言語モデル機能に依存している。
しかし、言論における他の重要な情報、例えば韻律はしばしば無視される。
近年の研究では、韻律情報を組み込んだ対話行為の分類結果が改善されている。
これらの方法の改善のマージンは最小限であり、神経モデルは韻律的特徴を無視している。
本研究では,発話の時間枠にまたがる注意マップを生成するために,韻律的特徴が異なる韻律アテンションを提案する。
次に,暗黙の韻律特徴を結合するのではなく,音響エンコーダの韻律情報を明示的に学習する韻律蒸留を提案する。
提案手法はどちらもベースライン結果を改善し, プロソディ-蒸留法は, SLURP と STOP のデータセットに対して, 意図的分類精度を 8 %, 2 % 向上させる。
関連論文リスト
- Pruning Literals for Highly Efficient Explainability at Word Level [13.249876381579158]
Tsetlin Machine(TM)は、命題論理を用いた単語レベルの説明を提供する能力があるので、有望である。
本稿では,文中にランダムに置かれるリテラルを排除した節のポストホックプルーニングを設計する。
一般公開されたYELP-HATデータセットの実験では、提案されたプルーンドTMのアテンションマップが、バニラTMのアテンションマップよりも人間のアテンションマップと一致していることが示されている。
論文 参考訳(メタデータ) (2024-11-07T09:28:38Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - MetAug: Contrastive Learning via Meta Feature Augmentation [28.708395209321846]
対照的な学習は、情報的特徴、すなわち「堅い」(肯定的または否定的な)特徴に大きく依存している、と我々は主張する。
このような特徴を探索する上で重要な課題は、ランダムなデータ拡張を適用することで、ソースのマルチビューデータを生成することである。
本稿では,潜在空間における特徴を直接拡張し,大量の入力データなしで識別表現を学習することを提案する。
論文 参考訳(メタデータ) (2022-03-10T02:35:39Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding [18.275646344620387]
本研究では,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを一致させる2段階のテキスト知識蒸留法を提案する。
我々は、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%のテスト精度、10%サブセットで99.5%を達成した。
論文 参考訳(メタデータ) (2020-10-25T12:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。