論文の概要: Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning
- arxiv url: http://arxiv.org/abs/2110.07410v1
- Date: Thu, 14 Oct 2021 14:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 20:16:19.001995
- Title: Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning
- Title(参考訳): 音声自動キャプションのための市販機械リスニングと自然言語モデルの評価
- Authors: Benno Weck, Xavier Favory, Konstantinos Drossos, Xavier Serra
- Abstract要約: キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 16.977616651315234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated audio captioning (AAC) is the task of automatically generating
textual descriptions for general audio signals. A captioning system has to
identify various information from the input signal and express it with natural
language. Existing works mainly focus on investigating new methods and try to
improve their performance measured on existing datasets. Having attracted
attention only recently, very few works on AAC study the performance of
existing pre-trained audio and natural language processing resources. In this
paper, we evaluate the performance of off-the-shelf models with a
Transformer-based captioning approach. We utilize the freely available Clotho
dataset to compare four different pre-trained machine listening models, four
word embedding models, and their combinations in many different settings. Our
evaluation suggests that YAMNet combined with BERT embeddings produces the best
captions. Moreover, in general, fine-tuning pre-trained word embeddings can
lead to better performance. Finally, we show that sequences of audio embeddings
can be processed using a Transformer encoder to produce higher-quality
captions.
- Abstract(参考訳): 自動音声キャプション(AAC)は、一般的な音声信号のテキスト記述を自動的に生成するタスクである。
キャプションシステムは入力信号から様々な情報を識別し、自然言語で表現する必要がある。
既存の作業は主に、新しいメソッドの調査と、既存のデータセットで測定されたパフォーマンスの改善に重点を置いている。
最近になって注目を集めたAACの研究はほとんどなく、既存の学習済みオーディオおよび自然言語処理リソースの性能について研究している。
本稿ではトランスフォーマーを用いたキャプション手法を用いて,市販モデルの性能評価を行う。
自由利用可能な布地データセットを用いて,4つの学習済みマシンリスニングモデル,4つの単語埋め込みモデル,それらの組み合わせを多種多様な設定で比較する。
評価の結果,YAMNetとBERTの埋め込みを組み合わせることで,最高のキャプションが生成されることが示唆された。
さらに、訓練済みの単語埋め込みを微調整することで、パフォーマンスが向上する。
最後に、トランスフォーマーエンコーダを用いてオーディオ埋め込みのシーケンスを処理し、高品質なキャプションを生成することを示す。
関連論文リスト
- AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning [24.608569008975497]
AVCap(Audio-Visual Captioning framework)を提案する。
AVCapは音声視覚機能をテキストトークンとして利用する。
提案手法は,既存の音声・視覚のキャプション手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-10T16:17:49Z) - Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。