論文の概要: Capture Salient Historical Information: A Fast and Accurate
Non-Autoregressive Model for Multi-turn Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2206.12209v1
- Date: Fri, 24 Jun 2022 10:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 12:47:04.078315
- Title: Capture Salient Historical Information: A Fast and Accurate
Non-Autoregressive Model for Multi-turn Spoken Language Understanding
- Title(参考訳): Capture Salient Historical Information:マルチターン音声言語理解のための高速かつ高精度な非自己回帰モデル
- Authors: Lizhi Cheng, Weijia jia, Wenmian Yang
- Abstract要約: 既存の作業は、シングルターンスポケン言語理解タスクのための非自己回帰モデルの設計によって推論速度を向上する。
我々はSHA-LRT(Layer-Refined Transformer)を用いた多ターンSLUのための新しいモデルを提案する。
SHAは、適切に設計された履歴アテンション機構によって、過去の発話と結果の両方から現在の対話の履歴情報をキャプチャする。
- 参考スコア(独自算出の注目度): 18.988599232838766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Language Understanding (SLU), a core component of the task-oriented
dialogue system, expects a shorter inference facing the impatience of human
users. Existing work increases inference speed by designing non-autoregressive
models for single-turn SLU tasks but fails to apply to multi-turn SLU in
confronting the dialogue history. The intuitive idea is to concatenate all
historical utterances and utilize the non-autoregressive models directly.
However, this approach seriously misses the salient historical information and
suffers from the uncoordinated-slot problems. To overcome those shortcomings,
we propose a novel model for multi-turn SLU named Salient History Attention
with Layer-Refined Transformer (SHA-LRT), which composes of an SHA module, a
Layer-Refined Mechanism (LRM), and a Slot Label Generation (SLG) task. SHA
captures salient historical information for the current dialogue from both
historical utterances and results via a well-designed history-attention
mechanism. LRM predicts preliminary SLU results from Transformer's middle
states and utilizes them to guide the final prediction, and SLG obtains the
sequential dependency information for the non-autoregressive encoder.
Experiments on public datasets indicate that our model significantly improves
multi-turn SLU performance (17.5% on Overall) with accelerating (nearly 15
times) the inference process over the state-of-the-art baseline as well as
effective on the single-turn SLU tasks.
- Abstract(参考訳): タスク指向対話システムの中核的なコンポーネントである音声言語理解(SLU)は、人間の不忍さに直面する短い推論を期待している。
既存の作業は、シングルターンSLUタスクの非自己回帰モデルを設計することで推論速度を向上するが、対話履歴に対向するマルチターンSLUには適用できない。
直感的なアイデアは、すべての歴史的な発話を結合し、非自己回帰モデルを直接利用することである。
しかし、このアプローチは重要な歴史的情報を見逃し、調整されていないスロットの問題に苦しむ。
これらの欠点を克服するため,SHAモジュール,層分割機構(LRM),スロットラベル生成(SLG)タスクで構成されるSHA-LRT(Salient History Attention with Layer-Refined Transformer)と呼ばれるマルチターンSLUの新しいモデルを提案する。
shaは、歴史的発話と結果の両方から現在の対話について、よく設計された履歴アテンション機構を通じて、有意義な歴史的情報をキャプチャする。
LRMはTransformerの中間状態から予備的なSLU結果を予測し、それらを最終予測に利用し、SLGは非自己回帰エンコーダの逐次依存性情報を取得する。
公開データセットを用いた実験から,本モデルではマルチターンSLUの高速化(全体の17.5%)と,最先端のベースラインでの推論プロセスの高速化(約15倍),およびシングルターンSLUタスクの有効性が示唆された。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence [68.27280750612204]
エンボディエージェントのための大規模自己回帰モデル(LARM)を導入する。
LARMはテキストとマルチビューの両方を入力として使用し、後続のアクションを自動回帰的に予測する。
LARMは2段階の訓練体制を採用し、Minecraftで魔法の装置の収穫に成功した。
論文 参考訳(メタデータ) (2024-05-27T17:59:32Z) - A Study on the Integration of Pre-trained SSL, ASR, LM and SLU Models
for Spoken Language Understanding [42.345266746904514]
4種類の事前学習モデルとそれらの組み合わせを音声言語理解(SLU)に適用する。
我々は、大量の未ペアデータに基づいて事前訓練された自己教師付き音声・言語モデル(LM)を利用して、強い音声・テキスト表現を抽出する。
また、より大きな外部音声認識(ASR)やSLUコーパスで事前訓練した教師付きモデルについても検討する。
論文 参考訳(メタデータ) (2022-11-10T20:59:13Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - An Effective Non-Autoregressive Model for Spoken Language Understanding [15.99246711701726]
本稿では,非自己回帰型音声言語理解モデルであるLayered-Refine Transformerを提案する。
SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。
2つの公開データセットの実験により、我々のモデルはSLU性能を著しく改善し(総合的精度で1.5%)、推論プロセスを大幅に高速化する(10倍以上)。
論文 参考訳(メタデータ) (2021-08-16T10:26:57Z) - A Result based Portable Framework for Spoken Language Understanding [15.99246711701726]
RPFSLU (Result-based Portable Framework for Spoken Language understanding) を提案する。
RPFSLUは、ほとんどの既存のシングルターンSLUモデルがマルチターン対話からコンテキスト情報を取得し、現在の予測中の対話履歴における予測結果を最大限に活用します。
公開データセットKVRETの実験結果は、ベースライン内のすべてのSLUモデルがマルチターンSLUタスクでRPFSLUによって強化されることを示した。
論文 参考訳(メタデータ) (2021-03-10T12:06:26Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。