論文の概要: How Much Context Does My Attention-Based ASR System Need?
- arxiv url: http://arxiv.org/abs/2310.15672v2
- Date: Mon, 17 Jun 2024 09:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:20:53.120046
- Title: How Much Context Does My Attention-Based ASR System Need?
- Title(参考訳): 私の注意に基づくASRシステムはどれくらいのコンテキストが必要か?
- Authors: Robert Flynn, Anton Ragni,
- Abstract要約: 本研究では,音響モデルの訓練・評価に用いるシーケンス長が音声認識性能に与える影響について実験的検討を行った。
10万の擬似ラベル付きSpotifyポッドキャストのデータセットが使用され、コンテキストの長さは5秒から1時間である。
結果は、最大21.8分間の音響コンテキストによるトレーニングの利点を示し、10秒のコンテキストでトレーニングされたベースラインから14.5%の相対的な改善を示す。
- 参考スコア(独自算出の注目度): 3.17829719401032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For the task of speech recognition, the use of more than 30 seconds of acoustic context during training is uncommon and under-investigated in literature. In this work, we conduct an empirical study on the effect of scaling the sequence length used to train/evaluate (dense-attention-based) acoustic models on speech recognition performance. For these experiments, a dataset of roughly 100,000 pseudo-labelled Spotify podcasts is used, with context lengths of 5 seconds to 1 hour being explored. Zero-shot evaluations are presented on the long-format datasets: Earnings-22, Tedlium and Rev16. Results demonstrate a benefit from training with up to 21.8 minutes of acoustic context, showing up to a 14.5\% relative improvement from a baseline trained with 10 seconds of context. We find that the model's width/depth, positional encoding scheme and number of attention heads impact its ability to use longer contexts.
- Abstract(参考訳): 音声認識のタスクでは,30秒以上の音響コンテキストの使用は稀であり,文献ではあまり語られていない。
本研究では,音響モデルの訓練・評価に用いるシーケンス長が音声認識性能に与える影響について実験的検討を行った。
これらの実験では、約10万個の擬似ラベル付きSpotifyポッドキャストのデータセットを使用し、コンテキストの長さは5秒から1時間である。
ゼロショット評価は、Earnings-22、Tedlium、Rev16といったロングフォーマットデータセットに表示される。
その結果、最大21.8分間の音響コンテキストでトレーニングを行うことの利点が示され、10秒のコンテキストでトレーニングしたベースラインから14.5\%の相対的な改善が見られた。
モデルの幅・深度,位置符号化方式,注目点数などによって,より長いコンテキストを使うことができることが判明した。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces [10.895310812568084]
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-07-23T22:18:47Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Temporal and cross-modal attention for audio-visual zero-shot learning [38.02396786726476]
ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-20T15:19:30Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。