Fugu-MT 論文翻訳(概要): A Streaming End-to-End Framework For Spoken Language Understanding

論文の概要: A Streaming End-to-End Framework For Spoken Language Understanding

arxiv url: http://arxiv.org/abs/2105.10042v1
Date: Thu, 20 May 2021 21:37:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-25 03:16:02.011714
Title: A Streaming End-to-End Framework For Spoken Language Understanding
Title（参考訳）: 音声言語理解のためのストリームエンドツーエンドフレームワーク
Authors: Nihal Potdar, Anderson R. Avila, Chao Xing, Dong Wang, Yiran Cao, Xiao Chen
Abstract要約: オンラインおよびインクリメンタルな方法で複数の意図を処理できるストリーミング・エンド・ツー・エンドのフレームワークを提案する。提案手法はFluent Speech Commandsデータセット上で評価し,意図検出精度は全マルチインテント設定で約97%である。
参考スコア（独自算出の注目度）: 11.58499117295424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end spoken language understanding (SLU) has recently attracted increasing interest. Compared to the conventional tandem-based approach that combines speech recognition and language understanding as separate modules, the new approach extracts users' intentions directly from the speech signals, resulting in joint optimization and low latency. Such an approach, however, is typically designed to process one intention at a time, which leads users to take multiple rounds to fulfill their requirements while interacting with a dialogue system. In this paper, we propose a streaming end-to-end framework that can process multiple intentions in an online and incremental way. The backbone of our framework is a unidirectional RNN trained with the connectionist temporal classification (CTC) criterion. By this design, an intention can be identified when sufficient evidence has been accumulated, and multiple intentions can be identified sequentially. We evaluate our solution on the Fluent Speech Commands (FSC) dataset and the intent detection accuracy is about 97 % on all multi-intent settings. This result is comparable to the performance of the state-of-the-art non-streaming models, but is achieved in an online and incremental way. We also employ our model to a keyword spotting task using the Google Speech Commands dataset and the results are also highly promising.
Abstract（参考訳）: エンドツーエンドの音声言語理解(SLU)が最近注目を集めている。音声認識と言語理解を別々のモジュールとして組み合わせた従来のタンデムベースのアプローチと比較して,新しいアプローチでは,音声信号から直接ユーザの意図を抽出し,共同最適化と低レイテンシを実現する。しかし、このようなアプローチは通常、1つの意図を一度に処理するように設計されており、ユーザーは対話システムと対話しながら要求を満たすために複数のラウンドを実施できる。本稿では,複数の意図をオンラインおよびインクリメンタルに処理できるストリーミングエンドツーエンドフレームワークを提案する。我々のフレームワークのバックボーンは、コネクショニスト時間分類(CTC)基準で訓練された一方向RNNである。この設計により、十分な証拠が蓄積された場合に意図を識別でき、複数の意図を順次特定することができる。提案手法はFSC(Fluent Speech Commands)データセット上で評価し,意図検出精度は全マルチインテント設定で約97 %である。この結果は最先端の非ストリーミングモデルのパフォーマンスに匹敵するが、オンラインおよびインクリメンタルな方法で達成される。 Google Speech Commandsデータセットを用いたキーワードスポッティングタスクにも,私たちのモデルを採用しています。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。 MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。 MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文参考訳（メタデータ） (2024-11-21T15:59:29Z)
Improved intent classification based on context information using a windows-based approach [0.0]
意図分類タスクは、ユーザが発話から何を達成しようとしているかを特定することを目的としている。以前の作業では、あるクエリの意図を予測するために、現在の発話のみを使用していた。本稿では,意図分類タスクにおける文脈情報の役割について検討する。
論文参考訳（メタデータ） (2024-11-09T00:56:02Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。 4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-02-08T16:55:21Z)
End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2022-03-27T08:55:28Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文参考訳（メタデータ） (2021-03-18T15:38:08Z)
Discriminative Nearest Neighbor Few-Shot Intent Detection by Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。深部自己注意を伴う識別的近傍分類を提示する。自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文参考訳（メタデータ） (2020-10-25T00:39:32Z)
Temporarily-Aware Context Modelling using Generative Adversarial Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。 NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文参考訳（メタデータ） (2020-04-02T02:33:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。