論文の概要: Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models
- arxiv url: http://arxiv.org/abs/2210.15734v1
- Date: Thu, 27 Oct 2022 19:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:00:51.498024
- Title: Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models
- Title(参考訳): 合成エンドツーエンドモデルを用いた音声理解のためのトークンレベルシーケンスラベリング
- Authors: Siddhant Arora, Siddharth Dalmia, Brian Yan, Florian Metze, Alan W
Black, Shinji Watanabe
- Abstract要約: 音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
- 参考スコア(独自算出の注目度): 94.30953696090758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end spoken language understanding (SLU) systems are gaining popularity
over cascaded approaches due to their simplicity and ability to avoid error
propagation. However, these systems model sequence labeling as a sequence
prediction task causing a divergence from its well-established token-level
tagging formulation. We build compositional end-to-end SLU systems that
explicitly separate the added complexity of recognizing spoken mentions in SLU
from the NLU task of sequence labeling. By relying on intermediate decoders
trained for ASR, our end-to-end systems transform the input modality from
speech to token-level representations that can be used in the traditional
sequence labeling framework. This composition of ASR and NLU formulations in
our end-to-end SLU system offers direct compatibility with pre-trained ASR and
NLU systems, allows performance monitoring of individual components and enables
the use of globally normalized losses like CRF, making them attractive in
practical scenarios. Our models outperform both cascaded and direct end-to-end
models on a labeling task of named entity recognition across SLU benchmarks.
- Abstract(参考訳): SLU(End-to-end Speech Language Understanding)システムは,その単純さとエラーの伝播を避ける能力により,カスケード方式よりも人気が高まっている。
しかし、これらのシステムでは、適切に確立されたトークンレベルのタグ付けの定式化から分岐を引き起こすシーケンス予測タスクとしてシーケンスラベリングをモデル化している。
我々は、SLUにおける音声の言及を認識する複雑さを、シーケンスラベリングのNLUタスクから明確に分離する構成的なエンドツーエンドSLUシステムを構築した。
asr用にトレーニングされた中間デコーダを利用することで、エンドツーエンドシステムは入力モダリティを音声から従来のシーケンスラベリングフレームワークで使用できるトークンレベルの表現に変換する。
エンドツーエンドのSLUシステムにおけるASRおよびNLUのこの構成は、事前訓練されたASRおよびNLUシステムとの直接互換性を提供し、個々のコンポーネントのパフォーマンス監視を可能にし、CRFのようなグローバルな正規化された損失の使用を可能にする。
我々のモデルは、SLUベンチマークにおける名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンドツーエンドモデルの両方より優れている。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Integrating Pretrained ASR and LM to Perform Sequence Generation for
Spoken Language Understanding [29.971414483624823]
本稿では,ASR と LMworks を,シーケンス生成タスクのための SLU の定式化に効果的に統合する 3 パスのエンドツーエンド(E2E) SLU システムを提案する。
提案した3パスSLUシステムは,2つのベンチマークSLUデータセット上でのカスケードモデルとE2E SLUモデルの性能向上を示す。
論文 参考訳(メタデータ) (2023-07-20T16:34:40Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding [22.652754839140744]
音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:08Z) - NSL: Hybrid Interpretable Learning From Noisy Raw Data [66.15862011405882]
本稿では,ラベル付き非構造データから解釈可能なルールを学習するニューラルシンボリック学習フレームワークNSLを提案する。
NSLは、機能抽出のためのトレーニング済みニューラルネットワークと、解集合セマンティクスに基づくルール学習のための最先端のILPシステムであるFastLASを組み合わせる。
NSLは、MNISTデータから堅牢なルールを学び、ニューラルネットワークやランダムフォレストベースラインと比較して、比較または優れた精度を達成できることを実証します。
論文 参考訳(メタデータ) (2020-12-09T13:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。