論文の概要: Local Information Assisted Attention-free Decoder for Audio Captioning
- arxiv url: http://arxiv.org/abs/2201.03217v1
- Date: Mon, 10 Jan 2022 08:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 17:27:38.283406
- Title: Local Information Assisted Attention-free Decoder for Audio Captioning
- Title(参考訳): 音声キャプションのための局所情報アシスト無注意デコーダ
- Authors: Feiyang Xiao, Jian Guan, Qiaoxi Zhu, Haiyan Lan, Wenwu Wang
- Abstract要約: 本稿では,PANNをベースとしたエンコーダを音声特徴抽出に用いるアテンションフリーデコーダを用いたAAC手法を提案する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
- 参考スコア(独自算出の注目度): 52.191658157204856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning (AAC) aims to describe audio data with captions
using natural language. Most existing AAC methods adopt an encoder-decoder
structure, where the attention based mechanism is a popular choice in the
decoder (e.g., Transformer decoder) for predicting captions from audio
features. Such attention based decoders can capture the global information from
the audio features, however, their ability in extracting local information can
be limited, which may lead to degraded quality in the generated captions. In
this paper, we present an AAC method with an attention-free decoder, where an
encoder based on PANNs is employed for audio feature extraction, and the
attention-free decoder is designed to introduce local information. The proposed
method enables the effective use of both global and local information from
audio signals. Experiments show that our method outperforms the
state-of-the-art methods with the standard attention based decoder in Task 6 of
the DCASE 2021 Challenge.
- Abstract(参考訳): 自動音声キャプション(aac)は、自然言語を用いたキャプションによる音声データの記述を目的とする。
既存のAACメソッドの多くはエンコーダ・デコーダ構造を採用しており、アテンションベースのメカニズムはオーディオ特徴からキャプションを予測するデコーダ(Transformer decoderなど)で一般的な選択である。
このような注意に基づくデコーダは、音声特徴からグローバル情報をキャプチャすることができるが、ローカル情報を抽出する能力は制限され、生成されたキャプションの品質が劣化する可能性がある。
本稿では,アテンションフリーデコーダを用いたAAC手法を提案し,PANNをベースとしたエンコーダを音声特徴抽出に使用し,アテンションフリーデコーダをローカル情報導入のために設計する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
実験の結果,本手法はDCASE 2021 Challengeのタスク6において,標準的なアテンションベースデコーダにより最先端の手法よりも優れていた。
関連論文リスト
- RECAP: Retrieval-Augmented Audio Captioning [49.0324838952586]
RECAP(Retrieval-Augmented Audio CAPtioning)は、データストアから取得したオーディオに似た入力オーディオや他のキャプションに条件付けされたキャプションを生成する。
提案手法は、追加の微調整を必要とせずに任意のドメインに転送できる。
この分野での研究を促進するために、AudioSet、AudioCaps、Clothoの弱いラベル付きキャプションを新たに15万以上リリースしました。
論文 参考訳(メタデータ) (2023-09-18T14:53:08Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Leveraging Pre-trained BERT for Audio Captioning [45.16535378268039]
BERTは訓練済みの言語モデルであり、自然言語処理(NLP)タスクで広く使われている。
音声キャプションモデルにおけるデコーダに対するBERTモデルの使用に関する実証的研究を行った。
本稿では,AudioCapsデータセット上の既存の音声キャプション手法を用いて,競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-06T00:05:58Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - WaveTransformer: A Novel Architecture for Audio Captioning Based on
Learning Temporal and Time-Frequency Information [20.153258692295278]
本稿では,音声における時間的・時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。
音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、もう1つは前の2つのプロセスの出力をマージする。
これまでに報告された最も高いSPIDErは16.2から17.3に増加した。
論文 参考訳(メタデータ) (2020-10-21T16:02:25Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。