論文の概要: Joint Speech Recognition and Audio Captioning
- arxiv url: http://arxiv.org/abs/2202.01405v1
- Date: Thu, 3 Feb 2022 04:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-05 00:07:19.622209
- Title: Joint Speech Recognition and Audio Captioning
- Title(参考訳): 共同音声認識と音声キャプション
- Authors: Chaitanya Narisetty, Emiru Tsunoo, Xuankai Chang, Yosuke Kashiwagi,
Michael Hentschel, Shinji Watanabe
- Abstract要約: 室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
- 参考スコア(独自算出の注目度): 37.205642807313545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech samples recorded in both indoor and outdoor environments are often
contaminated with secondary audio sources. Most end-to-end monaural speech
recognition systems either remove these background sounds using speech
enhancement or train noise-robust models. For better model interpretability and
holistic understanding, we aim to bring together the growing field of automated
audio captioning (AAC) and the thoroughly studied automatic speech recognition
(ASR). The goal of AAC is to generate natural language descriptions of contents
in audio samples. We propose several approaches for end-to-end joint modeling
of ASR and AAC tasks and demonstrate their advantages over traditional
approaches, which model these tasks independently. A major hurdle in evaluating
our proposed approach is the lack of labeled audio datasets with both speech
transcriptions and audio captions. Therefore we also create a multi-task
dataset by mixing the clean speech Wall Street Journal corpus with multiple
levels of background noises chosen from the AudioCaps dataset. We also perform
extensive experimental evaluation and show improvements of our proposed methods
as compared to existing state-of-the-art ASR and AAC methods.
- Abstract(参考訳): 室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
ほとんどのエンド・ツー・エンドのモノーラル音声認識システムは、これらの背景音を音声強調やトレインノイズロバストモデルを用いて除去する。
モデル解釈性と包括的理解を改善するために,音声自動キャプション(aac)と自動音声認識(asr)の分野を融合することを目指している。
AACの目標は、音声サンプルの内容を自然言語で記述することである。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案し,これらのタスクを独立にモデル化する従来のアプローチに対する優位性を実証する。
提案手法を評価する上での大きなハードルは、音声の書き起こしと音声キャプションの両方を含むラベル付きオーディオデータセットの欠如です。
そこで我々は,クリーンスピーチWall Street JournalコーパスとAudioCapsデータセットから選択した背景雑音を混合することにより,マルチタスクデータセットを作成する。
また,既存のasr法やaac法と比較して,提案手法の広範な実験評価を行い,改善点を示す。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文 参考訳(メタデータ) (2024-01-10T05:15:09Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。