論文の概要: An Effective Non-Autoregressive Model for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2108.07005v1
- Date: Mon, 16 Aug 2021 10:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 20:45:18.845806
- Title: An Effective Non-Autoregressive Model for Spoken Language Understanding
- Title(参考訳): 言語理解のための効果的な非自己回帰モデル
- Authors: Lizhi Cheng, Weijia Jia, Wenmian Yang
- Abstract要約: 本稿では,非自己回帰型音声言語理解モデルであるLayered-Refine Transformerを提案する。
SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。
2つの公開データセットの実験により、我々のモデルはSLU性能を著しく改善し(総合的精度で1.5%)、推論プロセスを大幅に高速化する(10倍以上)。
- 参考スコア(独自算出の注目度): 15.99246711701726
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Spoken Language Understanding (SLU), a core component of the task-oriented
dialogue system, expects a shorter inference latency due to the impatience of
humans. Non-autoregressive SLU models clearly increase the inference speed but
suffer uncoordinated-slot problems caused by the lack of sequential dependency
information among each slot chunk. To gap this shortcoming, in this paper, we
propose a novel non-autoregressive SLU model named Layered-Refine Transformer,
which contains a Slot Label Generation (SLG) task and a Layered Refine
Mechanism (LRM). SLG is defined as generating the next slot label with the
token sequence and generated slot labels. With SLG, the non-autoregressive
model can efficiently obtain dependency information during training and spend
no extra time in inference. LRM predicts the preliminary SLU results from
Transformer's middle states and utilizes them to guide the final prediction.
Experiments on two public datasets indicate that our model significantly
improves SLU performance (1.5\% on Overall accuracy) while substantially speed
up (more than 10 times) the inference process over the state-of-the-art
baseline.
- Abstract(参考訳): タスク指向対話システムの中核的なコンポーネントである音声言語理解(SLU)は,人間の忍耐による推論遅延の短縮を期待している。
非自己回帰SLUモデルは推論速度を明らかに向上させるが、各スロットチャンク間の逐次依存性情報の欠如に起因する非協調スロット問題に悩まされる。
そこで本稿では,この欠点を解消するために,スロットラベル生成(slg)タスクとlrm(layered refine mechanism)を含む,非自己回帰型sluモデルであるlayered-refine transformerを提案する。
slgはトークンシーケンスと生成されたスロットラベルで次のスロットラベルを生成することで定義される。
SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。
lrmは、transformerの中間状態からの予備slu結果を予測し、最終予測を導くためにそれらを利用する。
2つの公開データセットに対する実験により、我々のモデルはSLU性能を著しく改善し(精度は1.5倍)、最先端のベースラインよりも推論プロセスを大幅に高速化する(10倍以上)。
関連論文リスト
- Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding [44.77985942208969]
PRoDeliberationは、コネクショニストの時間分類に基づくデコード戦略を活用する新しい手法であり、堅牢な非自己回帰的デリベレーションモデルをトレーニングするための認知的目標である。
PRoDeliberationは,自動音声認識(ASR)の誤り書き起こしを補正する能力を維持しつつ,並列デコーディングの遅延低減(自己回帰モデルよりも2~10倍改善)を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:46:17Z) - LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence [68.27280750612204]
エンボディエージェントのための大規模自己回帰モデル(LARM)を導入する。
LARMはテキストとマルチビューの両方を入力として使用し、後続のアクションを自動回帰的に予測する。
LARMは2段階の訓練体制を採用し、Minecraftで魔法の装置の収穫に成功した。
論文 参考訳(メタデータ) (2024-05-27T17:59:32Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Capture Salient Historical Information: A Fast and Accurate
Non-Autoregressive Model for Multi-turn Spoken Language Understanding [18.988599232838766]
既存の作業は、シングルターンスポケン言語理解タスクのための非自己回帰モデルの設計によって推論速度を向上する。
我々はSHA-LRT(Layer-Refined Transformer)を用いた多ターンSLUのための新しいモデルを提案する。
SHAは、適切に設計された履歴アテンション機構によって、過去の発話と結果の両方から現在の対話の履歴情報をキャプチャする。
論文 参考訳(メタデータ) (2022-06-24T10:45:32Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - Modeling Token-level Uncertainty to Learn Unknown Concepts in SLU via
Calibrated Dirichlet Prior RNN [98.4713940310056]
現代パーソナルアシスタントにおける音声言語理解(SLU)の主な課題は、発話から意味概念を抽出することである。
最近の研究では、疑問と回答を収集し、未知のデータを学習し、質問すべきである。
疑わしい監督なしにシーケンスの不確かさをモデル化するために、ソフトマックスベースのスロット充填ニューラルネットワークアーキテクチャを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T02:12:30Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。