論文の概要: Where are we in semantic concept extraction for Spoken Language
Understanding?
- arxiv url: http://arxiv.org/abs/2106.13045v1
- Date: Thu, 24 Jun 2021 14:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 19:38:34.583775
- Title: Where are we in semantic concept extraction for Spoken Language
Understanding?
- Title(参考訳): Spoken Language Understandingのセマンティックな概念抽出はどこにあるのか?
- Authors: Sahar Ghannay, Antoine Caubri\`ere, Salima Mdhaffar, Ga\"elle
Laperri\`ere, Bassam Jabaian, Yannick Est\`eve
- Abstract要約: 音声言語理解とは、音声信号からの意味抽出に関連する自然言語処理タスクを指す。
本稿では,SLUにおけるフランスのMEDIAベンチマークデータセットの最近の進歩について概説する。
また、今年発表された最後の最先端システムでは13.6%ではなく、コンセプトエラー率(CER)が11.2%で現在の最先端システムを大幅に上回った最後の結果も提示する。
- 参考スコア(独自算出の注目度): 5.972910346618338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken language understanding (SLU) topic has seen a lot of progress these
last three years, with the emergence of end-to-end neural approaches. Spoken
language understanding refers to natural language processing tasks related to
semantic extraction from speech signal, like named entity recognition from
speech or slot filling task in a context of human-machine dialogue.
Classically, SLU tasks were processed through a cascade approach that consists
in applying, firstly, an automatic speech recognition process, followed by a
natural language processing module applied to the automatic transcriptions.
These three last years, end-to-end neural approaches, based on deep neural
networks, have been proposed in order to directly extract the semantics from
speech signal, by using a single neural model. More recent works on
self-supervised training with unlabeled data open new perspectives in term of
performance for automatic speech recognition and natural language processing.
In this paper, we present a brief overview of the recent advances on the French
MEDIA benchmark dataset for SLU, with or without the use of additional data. We
also present our last results that significantly outperform the current
state-of-the-art with a Concept Error Rate (CER) of 11.2%, instead of 13.6% for
the last state-of-the-art system presented this year.
- Abstract(参考訳): 音声言語理解(SLU)トピックは、エンドツーエンドのニューラルネットワークの出現とともに、過去3年間に多くの進歩を遂げてきた。
音声言語理解とは、音声信号からの意味的抽出に関連する自然言語処理タスクのことであり、例えば、音声からの名前付きエンティティ認識や、人間と機械の対話の文脈におけるスロットフィリングタスクである。
古典的には、sluタスクは、まず自動音声認識プロセスを適用し、次に自然言語処理モジュールを自動転写に適用するカスケードアプローチによって処理された。
この3年間、ディープニューラルネットワークに基づくエンドツーエンドニューラルネットワークアプローチは、単一のニューラルモデルを使用して、音声信号からセマンティクスを直接抽出するために提案されてきた。
ラベルなしデータを用いた自己教師付き学習に関する最近の研究は、自動音声認識と自然言語処理の性能の観点から新しい視点を開く。
本稿では、SLUのためのフランスのMEDIAベンチマークデータセットの最近の進歩について、追加データの使用の有無にかかわらず概説する。
今年発表された最新の最先端システムでは,13.6%ではなく,概念エラー率 (cer) が11.2%と,現在の最先端システムを大幅に上回っています。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - End-to-end model for named entity recognition from speech without paired
training data [12.66131972249388]
本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。
我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。
quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
論文 参考訳(メタデータ) (2022-04-02T08:14:27Z) - Accented Speech Recognition Inspired by Human Perception [0.0]
本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。
我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。
本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
論文 参考訳(メタデータ) (2021-04-09T22:35:09Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。