論文の概要: Automated Audio Captioning via Fusion of Low- and High- Dimensional
Features
- arxiv url: http://arxiv.org/abs/2210.05037v1
- Date: Mon, 10 Oct 2022 22:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:21:42.232929
- Title: Automated Audio Captioning via Fusion of Low- and High- Dimensional
Features
- Title(参考訳): 低次元・高次元特徴の融合による自動音声キャプション
- Authors: Jianyuan Sun and Xubo Liu and Xinhao Mei and Mark D. Plumbley and
Volkan Kilic and Wenwu Wang
- Abstract要約: 既存のAAC法では、PANNの高次元表現のみをデコーダの入力として用いている。
新たなエンコーダデコーダフレームワークであるLow- and High-dimensional Feature Fusion (LHDFF)モデルが提案されている。
LHDFFは、他の既存のモデルと比較して、ClothoとAudioCapsデータセット上で最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 48.62190893209622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning (AAC) aims to describe the content of an audio
clip using simple sentences. Existing AAC methods are developed based on an
encoder-decoder architecture that success is attributed to the use of a
pre-trained CNN10 called PANNs as the encoder to learn rich audio
representations. AAC is a highly challenging task due to its high-dimensional
talent space involves audio of various scenarios. Existing methods only use the
high-dimensional representation of the PANNs as the input of the decoder.
However, the low-dimension representation may retain as much audio information
as the high-dimensional representation may be neglected. In addition, although
the high-dimensional approach may predict the audio captions by learning from
existing audio captions, which lacks robustness and efficiency. To deal with
these challenges, a fusion model which integrates low- and high-dimensional
features AAC framework is proposed. In this paper, a new encoder-decoder
framework is proposed called the Low- and High-Dimensional Feature Fusion
(LHDFF) model for AAC. Moreover, in LHDFF, a new PANNs encoder is proposed
called Residual PANNs (RPANNs) by fusing the low-dimensional feature from the
intermediate convolution layer output and the high-dimensional feature from the
final layer output of PANNs. To fully explore the information of the low- and
high-dimensional fusion feature and high-dimensional feature respectively, we
proposed dual transformer decoder structures to generate the captions in
parallel. Especially, a probabilistic fusion approach is proposed that can
ensure the overall performance of the system is improved by concentrating on
the respective advantages of the two transformer decoders. Experimental results
show that LHDFF achieves the best performance on the Clotho and AudioCaps
datasets compared with other existing models
- Abstract(参考訳): 自動音声キャプション(AAC)は、簡単な文を用いて音声クリップの内容を記述することを目的としている。
既存のAAC手法は、エンコーダ-デコーダアーキテクチャに基づいて開発されており、その成功の原因は、エンコーダとしてPANNと呼ばれる訓練済みのCNN10を使用することである。
aacは、さまざまなシナリオの音声を含む高次元のタレント空間であるため、非常に難しいタスクである。
既存の方法は、デコーダの入力としてPANNの高次元表現のみを使用する。
しかし、低次元表現は高次元表現を無視できるほど多くの音声情報を保持できる。
さらに,従来の音声キャプションから学習することで,高次元アプローチで音声キャプションを予測できるが,頑健さや効率性に欠ける。
これらの課題に対処するため,AACフレームワークの低次元・高次元機能を統合した融合モデルを提案する。
本稿では,AACのためのLow- and High-dimensional Feature Fusion(LHDFF)モデルと呼ばれる新しいエンコーダデコーダフレームワークを提案する。
さらに、LHDFFでは、中間畳み込み層出力から低次元特徴とPANNの最終層出力から高次元特徴を融合させることにより、Residual PANNs(RPANNs)と呼ばれる新しいPANNエンコーダを提案する。
低次元・高次元融合特性と高次元特徴の情報を十分に探究するために, 並列にキャプションを生成するために, デュアルトランスデコーダ構造を提案する。
特に、2つのトランスデコーダのそれぞれの利点に集中することによりシステム全体の性能を向上できる確率的融合手法を提案する。
実験結果から,lhdffは他の既存モデルと比較して布地データとオーディオキャプタデータセットで最高の性能が得られることがわかった。
関連論文リスト
- FFCA-Net: Stereo Image Compression via Fast Cascade Alignment of Side
Information [44.88123177525665]
マルチビュー圧縮技術、特にステレオ画像圧縮(SIC)は、車載カメラや3D関連アプリケーションにおいて重要な役割を果たす。
本稿では,デコーダの側情報を完全に活用する機能ベースの高速カスケードアライメントネットワーク(FFCA-Net)を提案する。
提案手法は,他の手法よりも3倍から10倍高速な復号化を実現する。
論文 参考訳(メタデータ) (2023-12-28T11:12:03Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。