論文の概要: Local Information Assisted Attention-free Decoder for Audio Captioning
- arxiv url: http://arxiv.org/abs/2201.03217v1
- Date: Mon, 10 Jan 2022 08:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 17:27:38.283406
- Title: Local Information Assisted Attention-free Decoder for Audio Captioning
- Title(参考訳): 音声キャプションのための局所情報アシスト無注意デコーダ
- Authors: Feiyang Xiao, Jian Guan, Qiaoxi Zhu, Haiyan Lan, Wenwu Wang
- Abstract要約: 本稿では,PANNをベースとしたエンコーダを音声特徴抽出に用いるアテンションフリーデコーダを用いたAAC手法を提案する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
- 参考スコア(独自算出の注目度): 52.191658157204856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning (AAC) aims to describe audio data with captions
using natural language. Most existing AAC methods adopt an encoder-decoder
structure, where the attention based mechanism is a popular choice in the
decoder (e.g., Transformer decoder) for predicting captions from audio
features. Such attention based decoders can capture the global information from
the audio features, however, their ability in extracting local information can
be limited, which may lead to degraded quality in the generated captions. In
this paper, we present an AAC method with an attention-free decoder, where an
encoder based on PANNs is employed for audio feature extraction, and the
attention-free decoder is designed to introduce local information. The proposed
method enables the effective use of both global and local information from
audio signals. Experiments show that our method outperforms the
state-of-the-art methods with the standard attention based decoder in Task 6 of
the DCASE 2021 Challenge.
- Abstract(参考訳): 自動音声キャプション(aac)は、自然言語を用いたキャプションによる音声データの記述を目的とする。
既存のAACメソッドの多くはエンコーダ・デコーダ構造を採用しており、アテンションベースのメカニズムはオーディオ特徴からキャプションを予測するデコーダ(Transformer decoderなど)で一般的な選択である。
このような注意に基づくデコーダは、音声特徴からグローバル情報をキャプチャすることができるが、ローカル情報を抽出する能力は制限され、生成されたキャプションの品質が劣化する可能性がある。
本稿では,アテンションフリーデコーダを用いたAAC手法を提案し,PANNをベースとしたエンコーダを音声特徴抽出に使用し,アテンションフリーデコーダをローカル情報導入のために設計する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
実験の結果,本手法はDCASE 2021 Challengeのタスク6において,標準的なアテンションベースデコーダにより最先端の手法よりも優れていた。
関連論文リスト
- Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - VarietySound: Timbre-Controllable Video to Sound Generation via
Unsupervised Information Disentanglement [68.42632589736881]
ビデオ入力と参照音声サンプルを与えられた特定の音色で発音する作業を行う。
この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。
提案手法は,ビデオ中のイベントと高音質の音声サンプルを生成し,参照音声と高音質の類似性を示す。
論文 参考訳(メタデータ) (2022-11-19T11:12:01Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Leveraging Pre-trained BERT for Audio Captioning [45.16535378268039]
BERTは訓練済みの言語モデルであり、自然言語処理(NLP)タスクで広く使われている。
音声キャプションモデルにおけるデコーダに対するBERTモデルの使用に関する実証的研究を行った。
本稿では,AudioCapsデータセット上の既存の音声キャプション手法を用いて,競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-06T00:05:58Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - WaveTransformer: A Novel Architecture for Audio Captioning Based on
Learning Temporal and Time-Frequency Information [20.153258692295278]
本稿では,音声における時間的・時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。
音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、もう1つは前の2つのプロセスの出力をマージする。
これまでに報告された最も高いSPIDErは16.2から17.3に増加した。
論文 参考訳(メタデータ) (2020-10-21T16:02:25Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。