論文の概要: Automated Audio Captioning via Fusion of Low- and High- Dimensional
Features
- arxiv url: http://arxiv.org/abs/2210.05037v1
- Date: Mon, 10 Oct 2022 22:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:21:42.232929
- Title: Automated Audio Captioning via Fusion of Low- and High- Dimensional
Features
- Title(参考訳): 低次元・高次元特徴の融合による自動音声キャプション
- Authors: Jianyuan Sun and Xubo Liu and Xinhao Mei and Mark D. Plumbley and
Volkan Kilic and Wenwu Wang
- Abstract要約: 既存のAAC法では、PANNの高次元表現のみをデコーダの入力として用いている。
新たなエンコーダデコーダフレームワークであるLow- and High-dimensional Feature Fusion (LHDFF)モデルが提案されている。
LHDFFは、他の既存のモデルと比較して、ClothoとAudioCapsデータセット上で最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 48.62190893209622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated audio captioning (AAC) aims to describe the content of an audio
clip using simple sentences. Existing AAC methods are developed based on an
encoder-decoder architecture that success is attributed to the use of a
pre-trained CNN10 called PANNs as the encoder to learn rich audio
representations. AAC is a highly challenging task due to its high-dimensional
talent space involves audio of various scenarios. Existing methods only use the
high-dimensional representation of the PANNs as the input of the decoder.
However, the low-dimension representation may retain as much audio information
as the high-dimensional representation may be neglected. In addition, although
the high-dimensional approach may predict the audio captions by learning from
existing audio captions, which lacks robustness and efficiency. To deal with
these challenges, a fusion model which integrates low- and high-dimensional
features AAC framework is proposed. In this paper, a new encoder-decoder
framework is proposed called the Low- and High-Dimensional Feature Fusion
(LHDFF) model for AAC. Moreover, in LHDFF, a new PANNs encoder is proposed
called Residual PANNs (RPANNs) by fusing the low-dimensional feature from the
intermediate convolution layer output and the high-dimensional feature from the
final layer output of PANNs. To fully explore the information of the low- and
high-dimensional fusion feature and high-dimensional feature respectively, we
proposed dual transformer decoder structures to generate the captions in
parallel. Especially, a probabilistic fusion approach is proposed that can
ensure the overall performance of the system is improved by concentrating on
the respective advantages of the two transformer decoders. Experimental results
show that LHDFF achieves the best performance on the Clotho and AudioCaps
datasets compared with other existing models
- Abstract(参考訳): 自動音声キャプション(AAC)は、簡単な文を用いて音声クリップの内容を記述することを目的としている。
既存のAAC手法は、エンコーダ-デコーダアーキテクチャに基づいて開発されており、その成功の原因は、エンコーダとしてPANNと呼ばれる訓練済みのCNN10を使用することである。
aacは、さまざまなシナリオの音声を含む高次元のタレント空間であるため、非常に難しいタスクである。
既存の方法は、デコーダの入力としてPANNの高次元表現のみを使用する。
しかし、低次元表現は高次元表現を無視できるほど多くの音声情報を保持できる。
さらに,従来の音声キャプションから学習することで,高次元アプローチで音声キャプションを予測できるが,頑健さや効率性に欠ける。
これらの課題に対処するため,AACフレームワークの低次元・高次元機能を統合した融合モデルを提案する。
本稿では,AACのためのLow- and High-dimensional Feature Fusion(LHDFF)モデルと呼ばれる新しいエンコーダデコーダフレームワークを提案する。
さらに、LHDFFでは、中間畳み込み層出力から低次元特徴とPANNの最終層出力から高次元特徴を融合させることにより、Residual PANNs(RPANNs)と呼ばれる新しいPANNエンコーダを提案する。
低次元・高次元融合特性と高次元特徴の情報を十分に探究するために, 並列にキャプションを生成するために, デュアルトランスデコーダ構造を提案する。
特に、2つのトランスデコーダのそれぞれの利点に集中することによりシステム全体の性能を向上できる確率的融合手法を提案する。
実験結果から,lhdffは他の既存モデルと比較して布地データとオーディオキャプタデータセットで最高の性能が得られることがわかった。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。