論文の概要: Deep Neural Networks for Automatic Speech Processing: A Survey from
Large Corpora to Limited Data
- arxiv url: http://arxiv.org/abs/2003.04241v1
- Date: Mon, 9 Mar 2020 16:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:35:16.266901
- Title: Deep Neural Networks for Automatic Speech Processing: A Survey from
Large Corpora to Limited Data
- Title(参考訳): 音声自動処理のためのディープニューラルネットワーク:大規模コーパスから限定データへの調査
- Authors: Vincent Roger, J\'er\^ome Farinas and Julien Pinquier
- Abstract要約: 多くの最先端音声システムはディープニューラルネットワーク(DNN)を使用している。
これらのシステムは大量のデータを学習する必要がある。
我々は、自動音声認識、話者識別、感情認識の3つのタスクに自らを配置する。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most state-of-the-art speech systems are using Deep Neural Networks (DNNs).
Those systems require a large amount of data to be learned. Hence, learning
state-of-the-art frameworks on under-resourced speech languages/problems is a
difficult task. Problems could be the limited amount of data for impaired
speech. Furthermore, acquiring more data and/or expertise is time-consuming and
expensive. In this paper we position ourselves for the following speech
processing tasks: Automatic Speech Recognition, speaker identification and
emotion recognition. To assess the problem of limited data, we firstly
investigate state-of-the-art Automatic Speech Recognition systems as it
represents the hardest tasks (due to the large variability in each language).
Next, we provide an overview of techniques and tasks requiring fewer data. In
the last section we investigate few-shot techniques as we interpret
under-resourced speech as a few-shot problem. In that sense we propose an
overview of few-shot techniques and perspectives of using such techniques for
the focused speech problems in this survey. It occurs that the reviewed
techniques are not well adapted for large datasets. Nevertheless, some
promising results from the literature encourage the usage of such techniques
for speech processing.
- Abstract(参考訳): 最先端の音声システムはディープニューラルネットワーク(DNN)を使用している。
これらのシステムは大量のデータを学習する必要がある。
したがって、アンダーリソース音声言語/プロブレムにおける最先端フレームワークの学習は難しい課題である。
問題は、音声障害の限られたデータ量だ。
さらに、より多くのデータや専門知識を取得するのに時間と費用がかかります。
本稿では,音声の自動認識,話者識別,感情認識など,音声処理タスクに自己を配置する。
限られたデータの問題を評価するために,まず,(言語毎に大きな変動があるため)最も難しいタスクを表現するため,最先端の自動音声認識システムについて検討する。
次に、少ないデータを必要とする技術とタスクの概要を示す。
前節では、アンダーリソーシングされた音声を数ショット問題として解釈する際、少数ショット技術について検討する。
そこで,本研究では,この手法を音声に焦点をあてた音声問題に対して用いる際の問題点と展望について概説する。
レビューされたテクニックは大規模なデータセットには適していない。
それにもかかわらず、文献から得られる有望な成果は、そのような技術が音声処理に使用されることを奨励している。
関連論文リスト
- ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Data Augmentation for Speech Recognition in Maltese: A Low-Resource
Perspective [4.6898263272139795]
マルタ語における音声認識改善のためのデータ拡張手法を検討する。
本稿では,教師なし学習,多言語学習,合成音声を訓練データとして利用する3つのデータ拡張について考察する。
この結果から,3つのデータ拡張手法を組み合わせることで,言語モデルを用いることなく,WERの絶対値が15%向上することが示唆された。
論文 参考訳(メタデータ) (2021-11-15T14:28:21Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Automatic Speech Summarisation: A Scoping Review [7.755991028607979]
このスコーピングレビューは、時間枠、言語要約、研究方法、ペーパータイプに制約のない音声要約文献をマッピングする。
文献検索と抽出した音声特徴, 方法, 範囲, 訓練コーパスから得られた153の集合から, 合計110の論文をレビューした。
論文 参考訳(メタデータ) (2020-08-27T03:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。