論文の概要: End-to-end Spoken Language Understanding with Tree-constrained Pointer
Generator
- arxiv url: http://arxiv.org/abs/2210.16554v1
- Date: Sat, 29 Oct 2022 10:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:37:25.896657
- Title: End-to-end Spoken Language Understanding with Tree-constrained Pointer
Generator
- Title(参考訳): tree-constrained pointer generatorを用いたエンドツーエンド音声理解
- Authors: Guangzhi Sun, Chao Zhang, Philip C. Woodland
- Abstract要約: 本稿では、文脈バイアスを利用して、エンドツーエンドの音声言語理解を改善する。
SLURPデータセットの実験では、TCPGenとSPBを使用して一貫したSLU-F1の改善が見られた。
スロット充填に加えて,意図分類精度も向上した。
- 参考スコア(独自算出の注目度): 19.372248692745167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end spoken language understanding (SLU) suffers from the long-tail
word problem. This paper exploits contextual biasing, a technique to improve
the speech recognition of rare words, in end-to-end SLU systems. Specifically,
a tree-constrained pointer generator (TCPGen), a powerful and efficient biasing
model component, is studied, which leverages a slot shortlist with
corresponding entities to extract biasing lists. Meanwhile, to bias the SLU
model output slot distribution, a slot probability biasing (SPB) mechanism is
proposed to calculate a slot distribution from TCPGen. Experiments on the SLURP
dataset showed consistent SLU-F1 improvements using TCPGen and SPB, especially
on unseen entities. On a new split by holding out 5 slot types for the test,
TCPGen with SPB achieved zero-shot learning with an SLU-F1 score over 50%
compared to baselines which can not deal with it. In addition to slot filling,
the intent classification accuracy was also improved.
- Abstract(参考訳): エンドツーエンドの音声言語理解(SLU)は、長い単語の問題に悩まされる。
本稿では,SLUシステムにおいて,稀な単語の音声認識を改善する手法である文脈偏見を利用する。
具体的には、強力で効率的なバイアスモデルコンポーネントである木制約ポインタジェネレータ(TCPGen)について検討し、スロットショートリストと対応するエンティティを利用してバイアスリストを抽出する。
一方、SLUモデルの出力スロット分布を偏りにするために、TCPGenからスロット分布を計算するためにスロット確率バイアス(SPB)機構を提案する。
SLURPデータセットの実験では、TCPGenとSPBを使った一貫したSLU-F1の改善が見られた。
テストのために5つのスロットタイプを保持することで、tcpgen with spbは50%以上のslu-f1スコアでゼロショット学習を達成した。
スロット充填に加えて,意図分類精度も向上した。
関連論文リスト
- Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Minimising Biasing Word Errors for Contextual ASR with the
Tree-Constrained Pointer Generator [19.372248692745167]
高評価長尾語における音声認識誤りの低減には文脈知識が不可欠である。
本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:40:50Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文 参考訳(メタデータ) (2021-09-01T21:41:59Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - Robust Spoken Language Understanding with RL-based Value Error Recovery [35.82890898452309]
Spoken Language Understanding (SLU) は、音声認識されたテキストから構造化された意味表現(例えば、スロット値対)を抽出することを目的としている。
本稿では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。
パブリックCATSLUデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-09-07T13:32:07Z) - End-to-End Neural Transformer Based Spoken Language Understanding [14.736425160859284]
音声言語理解(SLU)とは、音声信号から意味情報を推測する過程のこと。
本稿では,音声信号に埋め込まれた可変長領域,意図,スロットを予測可能な,エンドツーエンドのニューラルトランスフォーマーに基づくSLUモデルを提案する。
我々のエンドツーエンド変換器SLUは、Fluent Speech Commandsデータセットのドメイン、インテント、スロットを、それぞれ98.1 %、99.6 %、99.6 %と精度で予測する。
論文 参考訳(メタデータ) (2020-08-12T22:58:20Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。