論文の概要: Weakly-supervised Automated Audio Captioning via text only training
- arxiv url: http://arxiv.org/abs/2309.12242v1
- Date: Thu, 21 Sep 2023 16:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:07:29.454929
- Title: Weakly-supervised Automated Audio Captioning via text only training
- Title(参考訳): テキストのみによる弱教師付きオーディオキャプション
- Authors: Theodoros Kouzelis and Vassilis Katsouros
- Abstract要約: 本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
- 参考スコア(独自算出の注目度): 1.504795651143257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, datasets of paired audio and captions have enabled
remarkable success in automatically generating descriptions for audio clips,
namely Automated Audio Captioning (AAC). However, it is labor-intensive and
time-consuming to collect a sufficient number of paired audio and captions.
Motivated by the recent advances in Contrastive Language-Audio Pretraining
(CLAP), we propose a weakly-supervised approach to train an AAC model assuming
only text data and a pre-trained CLAP model, alleviating the need for paired
target data. Our approach leverages the similarity between audio and text
embeddings in CLAP. During training, we learn to reconstruct the text from the
CLAP text embedding, and during inference, we decode using the audio
embeddings. To mitigate the modality gap between the audio and text embeddings
we employ strategies to bridge the gap during training and inference stages. We
evaluate our proposed method on Clotho and AudioCaps datasets demonstrating its
ability to achieve a relative performance of up to ~$83\%$ compared to fully
supervised approaches trained with paired target data.
- Abstract(参考訳): 近年、ペアオーディオとキャプションのデータセットは、自動オーディオキャプション(aac)と呼ばれる音声クリップの記述を自動的に生成することに成功した。
しかし、十分な数のオーディオとキャプションを集めるには労働集約的で時間がかかる。
近年のContrastive Language-Audio Pretraining (CLAP) の進展により,テキストデータと事前学習したCLAPモデルのみを前提として,AACモデルを弱教師付きで訓練する方法を提案する。
本手法は,CLAPにおける音声とテキストの埋め込みの類似性を利用する。
トレーニング中、私たちはクラップテキスト埋め込みからテキストを再構築することを学び、推論中、オーディオ埋め込みを使用してデコードします。
音声とテキストの埋め込み間のモーダリティギャップを軽減するために、トレーニングと推論の段階でギャップを埋めるための戦略を採用しています。
提案手法を布地データとaudiocapsデータセットを用いて評価し,対対象データでトレーニングされた完全教師付きアプローチと比較して,最大83\%$の相対的性能を実現する能力を示す。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。