Fugu-MT 論文翻訳(概要): Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization

論文の概要: Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization

arxiv url: http://arxiv.org/abs/2108.04692v1
Date: Tue, 10 Aug 2021 13:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-11 17:38:17.594296
Title: Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization
Title（参考訳）: 伝達学習と遅延空間類似度正規化を用いた自動音声キャプション
Authors: Andrew Koh, Fuzhao Xue, Eng Siong Chng
Abstract要約: 本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
参考スコア（独自算出の注目度）: 21.216783537997426
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we examine the use of Transfer Learning using Pretrained Audio Neural Networks (PANNs), and propose an architecture that is able to better leverage the acoustic features provided by PANNs for the Automated Audio Captioning Task. We also introduce a novel self-supervised objective, Reconstruction Latent Space Similarity Regularization (RLSSR). The RLSSR module supplements the training of the model by minimizing the similarity between the encoder and decoder embedding. The combination of both methods allows us to surpass state of the art results by a significant margin on the Clotho dataset across several metrics and benchmarks.
Abstract（参考訳）: 本稿では,事前学習された音声ニューラルネットワーク(pann)を用いたトランスファー学習の利用について検討し,自動音声キャプションタスクにおいて,pannが提供する音響的特徴をより活用できるアーキテクチャを提案する。また,新たな自己教師型目標であるRestruction Latent Space similarity Regularization (RLSSR)を導入する。 RLSSRモジュールはエンコーダとデコーダの埋め込みの類似性を最小化することでモデルのトレーニングを補完する。両方の手法を組み合わせることで、いくつかのメトリクスとベンチマークでClathoデータセットのかなりのマージンで、アート結果の状態を超えることができます。

関連論文リスト

Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Variational Self-Supervised Learning [0.0]
本稿では,変分推論と自己教師型学習を組み合わせた新しいフレームワークである変分自己監視学習(VSSL)を提案する。モーメントアップされた教師ネットワークは、ダイナミックなデータ依存の事前を定義する一方、学生エンコーダは、拡張ビューから近似的な後進を生成する。 CIFAR-10、CIFAR-100、ImageNet-100の実験では、VSSLは最上位の自己管理手法に対して、競争力または優れた性能を達成している。
論文参考訳（メタデータ） (2025-04-06T01:28:50Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。同様のビットレートでEncodecを上回るパイプラインを導入する。
論文参考訳（メタデータ） (2024-07-03T20:51:41Z)
Continual Learning for On-Device Speech Recognition using Disentangled Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2022-12-02T18:58:51Z)
CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition [20.02248459288662]
本稿では,事前学習されたASRモデルの中間表現に基づく新しいチャネルと時間的注意RNNアーキテクチャを提案する。本稿では,IEMOCAP と MSP-IMPROV の2つのベンチマークデータセットに対するアプローチを評価する。
論文参考訳（メタデータ） (2022-03-31T13:32:51Z)
A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文参考訳（メタデータ） (2021-12-02T07:26:34Z)
Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。 ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文参考訳（メタデータ） (2021-10-08T05:07:35Z)
Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文参考訳（メタデータ） (2021-04-09T11:04:58Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)
Train your classifier first: Cascade Neural Networks Training from upper layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文参考訳（メタデータ） (2021-02-09T08:19:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。