論文の概要: Audio Captioning with Composition of Acoustic and Semantic Information
- arxiv url: http://arxiv.org/abs/2105.06355v1
- Date: Thu, 13 May 2021 15:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:44:00.234648
- Title: Audio Captioning with Composition of Acoustic and Semantic Information
- Title(参考訳): 音響情報と意味情報の合成による音声キャプション
- Authors: Ay\c{s}eg\"ul \"Ozkaya Eren and Mustafa Sert
- Abstract要約: 本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating audio captions is a new research area that combines audio and
natural language processing to create meaningful textual descriptions for audio
clips. To address this problem, previous studies mostly use the encoder-decoder
based models without considering semantic information. To fill this gap, we
present a novel encoder-decoder architecture using bi-directional Gated
Recurrent Units (BiGRU) with audio and semantic embeddings. We extract semantic
embedding by obtaining subjects and verbs from the audio clip captions and
combine these embedding with audio embedding to feed the BiGRU-based
encoder-decoder model. To enable semantic embeddings for the test audios, we
introduce a Multilayer Perceptron classifier to predict the semantic embeddings
of those clips. We also present exhaustive experiments to show the efficiency
of different features and datasets for our proposed model the audio captioning
task. To extract audio features, we use the log Mel energy features, VGGish
embeddings, and a pretrained audio neural network (PANN) embeddings. Extensive
experiments on two audio captioning datasets Clotho and AudioCaps show that our
proposed model outperforms state-of-the-art audio captioning models across
different evaluation metrics and using the semantic information improves the
captioning performance. Keywords: Audio captioning; PANNs; VGGish; GRU; BiGRU.
- Abstract(参考訳): オーディオキャプションの生成は、オーディオと自然言語処理を組み合わせた新しい研究領域であり、オーディオクリップに意味のあるテキスト記述を生成する。
この問題に対処するため、従来の研究では、意味情報を考慮せずにエンコーダ-デコーダモデルを用いていた。
このギャップを埋めるために,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声クリップキャプションから主語と動詞を抽出してセマンティック埋め込みを抽出し,これらの埋め込みとオーディオ埋め込みを組み合わせることで,BiGRUベースのエンコーダデコーダモデルを提供する。
テスト音声のセマンティック埋め込みを可能にするために,これらのクリップのセマンティック埋め込みを予測するための多層パーセプトロン分類器を導入する。
また,提案する音声キャプションタスクに対して,様々な特徴やデータセットの効率性を示すための徹底的な実験を行った。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
2つの音声キャプションデータセットである clotho と audiocaps の広範な実験により,提案モデルが,評価指標の異なる音声キャプションモデルよりも優れており,意味情報を用いることでキャプション性能が向上することが示された。
キーワード:オーディオキャプション、PANN、VGGish、GRU、BiGRU。
関連論文リスト
- Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Audio Difference Learning for Audio Captioning [44.55621877667949]
本研究では,音声キャプション改善のための新しい学習パラダイムである音声差分学習を導入する。
Clotho と ESC50 のデータセットを用いた実験では,従来の手法と比較してSPIDEr のスコアが7%向上した。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - Leveraging Pre-trained BERT for Audio Captioning [45.16535378268039]
BERTは訓練済みの言語モデルであり、自然言語処理(NLP)タスクで広く使われている。
音声キャプションモデルにおけるデコーダに対するBERTモデルの使用に関する実証的研究を行った。
本稿では,AudioCapsデータセット上の既存の音声キャプション手法を用いて,競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-06T00:05:58Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。