論文の概要: Leveraging Pre-trained BERT for Audio Captioning
- arxiv url: http://arxiv.org/abs/2203.02838v1
- Date: Sun, 6 Mar 2022 00:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:43:38.590542
- Title: Leveraging Pre-trained BERT for Audio Captioning
- Title(参考訳): プレトレーニングBERTのオーディオキャプションへの応用
- Authors: Xubo Liu, Xinhao Mei, Qiushi Huang, Jianyuan Sun, Jinzheng Zhao, Haohe
Liu, Mark D. Plumbley, Volkan K{\i}l{\i}\c{c}, Wenwu Wang
- Abstract要約: BERTは訓練済みの言語モデルであり、自然言語処理(NLP)タスクで広く使われている。
音声キャプションモデルにおけるデコーダに対するBERTモデルの使用に関する実証的研究を行った。
本稿では,AudioCapsデータセット上の既存の音声キャプション手法を用いて,競合する結果を得る。
- 参考スコア(独自算出の注目度): 45.16535378268039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio captioning aims at using natural language to describe the content of an
audio clip. Existing audio captioning systems are generally based on an
encoder-decoder architecture, in which acoustic information is extracted by an
audio encoder and then a language decoder is used to generate the captions.
Training an audio captioning system often encounters the problem of data
scarcity. Transferring knowledge from pre-trained audio models such as
Pre-trained Audio Neural Networks (PANNs) have recently emerged as a useful
method to mitigate this issue. However, there is less attention on exploiting
pre-trained language models for the decoder, compared with the encoder. BERT is
a pre-trained language model that has been extensively used in Natural Language
Processing (NLP) tasks. Nevertheless, the potential of BERT as the language
decoder for audio captioning has not been investigated. In this study, we
demonstrate the efficacy of the pre-trained BERT model for audio captioning.
Specifically, we apply PANNs as the encoder and initialize the decoder from the
public pre-trained BERT models. We conduct an empirical study on the use of
these BERT models for the decoder in the audio captioning model. Our models
achieve competitive results with the existing audio captioning methods on the
AudioCaps dataset.
- Abstract(参考訳): 音声キャプションは、自然言語を使って音声クリップの内容を記述することを目的としている。
既存の音声キャプションシステムは、オーディオエンコーダによって音響情報を抽出し、その後、言語デコーダを使用してキャプションを生成するエンコーダ/デコーダアーキテクチャに基づいている。
オーディオキャプションシステムのトレーニングは、しばしばデータ不足の問題に遭遇する。
プレトレーニングオーディオニューラルネット(PANN)のような事前学習オーディオモデルからの知識の伝達は、この問題を緩和するための有用な方法として最近登場した。
しかし、デコーダのトレーニング済み言語モデルの利用には、エンコーダに比べて注意が向けられていない。
BERTは訓練済みの言語モデルであり、自然言語処理(NLP)タスクで広く使われている。
しかし,音声キャプションのための言語デコーダとしてのBERTの可能性については検討されていない。
本研究では,事前学習したBERTモデルによる音声キャプションの有効性を示す。
具体的には、PANNをエンコーダとして適用し、公開事前学習されたBERTモデルからデコーダを初期化する。
音声キャプションモデルにおけるデコーダに対するこれらのbertモデルの使用に関する実証研究を行う。
本モデルでは,audiocapsデータセット上の既存の音声キャプション手法と競合する結果を得る。
関連論文リスト
- Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Local Information Assisted Attention-free Decoder for Audio Captioning [52.191658157204856]
本稿では,PANNをベースとしたエンコーダを音声特徴抽出に用いるアテンションフリーデコーダを用いたAAC手法を提案する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
論文 参考訳(メタデータ) (2022-01-10T08:55:52Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。