論文の概要: Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization
- arxiv url: http://arxiv.org/abs/2108.04692v1
- Date: Tue, 10 Aug 2021 13:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 17:38:17.594296
- Title: Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization
- Title(参考訳): 伝達学習と遅延空間類似度正規化を用いた自動音声キャプション
- Authors: Andrew Koh, Fuzhao Xue, Eng Siong Chng
- Abstract要約: 本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
- 参考スコア(独自算出の注目度): 21.216783537997426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we examine the use of Transfer Learning using Pretrained Audio
Neural Networks (PANNs), and propose an architecture that is able to better
leverage the acoustic features provided by PANNs for the Automated Audio
Captioning Task. We also introduce a novel self-supervised objective,
Reconstruction Latent Space Similarity Regularization (RLSSR). The RLSSR module
supplements the training of the model by minimizing the similarity between the
encoder and decoder embedding. The combination of both methods allows us to
surpass state of the art results by a significant margin on the Clotho dataset
across several metrics and benchmarks.
- Abstract(参考訳): 本稿では,事前学習された音声ニューラルネットワーク(pann)を用いたトランスファー学習の利用について検討し,自動音声キャプションタスクにおいて,pannが提供する音響的特徴をより活用できるアーキテクチャを提案する。
また,新たな自己教師型目標であるRestruction Latent Space similarity Regularization (RLSSR)を導入する。
RLSSRモジュールはエンコーダとデコーダの埋め込みの類似性を最小化することでモデルのトレーニングを補完する。
両方の手法を組み合わせることで、いくつかのメトリクスとベンチマークでClathoデータセットのかなりのマージンで、アート結果の状態を超えることができます。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained
ASR Embeddings for Speech Emotion Recognition [20.02248459288662]
本稿では,事前学習されたASRモデルの中間表現に基づく新しいチャネルと時間的注意RNNアーキテクチャを提案する。
本稿では,IEMOCAP と MSP-IMPROV の2つのベンチマークデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-03-31T13:32:51Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。