Fugu-MT 論文翻訳(概要): Automated Audio Captioning via Fusion of Low- and High- Dimensional Features

論文の概要: Automated Audio Captioning via Fusion of Low- and High- Dimensional Features

arxiv url: http://arxiv.org/abs/2210.05037v1
Date: Mon, 10 Oct 2022 22:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 17:21:42.232929
Title: Automated Audio Captioning via Fusion of Low- and High- Dimensional Features
Title（参考訳）: 低次元・高次元特徴の融合による自動音声キャプション
Authors: Jianyuan Sun and Xubo Liu and Xinhao Mei and Mark D. Plumbley and Volkan Kilic and Wenwu Wang
Abstract要約: 既存のAAC法では、PANNの高次元表現のみをデコーダの入力として用いている。新たなエンコーダデコーダフレームワークであるLow- and High-dimensional Feature Fusion (LHDFF)モデルが提案されている。 LHDFFは、他の既存のモデルと比較して、ClothoとAudioCapsデータセット上で最高のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 48.62190893209622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated audio captioning (AAC) aims to describe the content of an audio clip using simple sentences. Existing AAC methods are developed based on an encoder-decoder architecture that success is attributed to the use of a pre-trained CNN10 called PANNs as the encoder to learn rich audio representations. AAC is a highly challenging task due to its high-dimensional talent space involves audio of various scenarios. Existing methods only use the high-dimensional representation of the PANNs as the input of the decoder. However, the low-dimension representation may retain as much audio information as the high-dimensional representation may be neglected. In addition, although the high-dimensional approach may predict the audio captions by learning from existing audio captions, which lacks robustness and efficiency. To deal with these challenges, a fusion model which integrates low- and high-dimensional features AAC framework is proposed. In this paper, a new encoder-decoder framework is proposed called the Low- and High-Dimensional Feature Fusion (LHDFF) model for AAC. Moreover, in LHDFF, a new PANNs encoder is proposed called Residual PANNs (RPANNs) by fusing the low-dimensional feature from the intermediate convolution layer output and the high-dimensional feature from the final layer output of PANNs. To fully explore the information of the low- and high-dimensional fusion feature and high-dimensional feature respectively, we proposed dual transformer decoder structures to generate the captions in parallel. Especially, a probabilistic fusion approach is proposed that can ensure the overall performance of the system is improved by concentrating on the respective advantages of the two transformer decoders. Experimental results show that LHDFF achieves the best performance on the Clotho and AudioCaps datasets compared with other existing models
Abstract（参考訳）: 自動音声キャプション(AAC)は、簡単な文を用いて音声クリップの内容を記述することを目的としている。既存のAAC手法は、エンコーダ-デコーダアーキテクチャに基づいて開発されており、その成功の原因は、エンコーダとしてPANNと呼ばれる訓練済みのCNN10を使用することである。 aacは、さまざまなシナリオの音声を含む高次元のタレント空間であるため、非常に難しいタスクである。既存の方法は、デコーダの入力としてPANNの高次元表現のみを使用する。しかし、低次元表現は高次元表現を無視できるほど多くの音声情報を保持できる。さらに,従来の音声キャプションから学習することで,高次元アプローチで音声キャプションを予測できるが,頑健さや効率性に欠ける。これらの課題に対処するため,AACフレームワークの低次元・高次元機能を統合した融合モデルを提案する。本稿では,AACのためのLow- and High-dimensional Feature Fusion(LHDFF)モデルと呼ばれる新しいエンコーダデコーダフレームワークを提案する。さらに、LHDFFでは、中間畳み込み層出力から低次元特徴とPANNの最終層出力から高次元特徴を融合させることにより、Residual PANNs(RPANNs)と呼ばれる新しいPANNエンコーダを提案する。低次元・高次元融合特性と高次元特徴の情報を十分に探究するために, 並列にキャプションを生成するために, デュアルトランスデコーダ構造を提案する。特に、2つのトランスデコーダのそれぞれの利点に集中することによりシステム全体の性能を向上できる確率的融合手法を提案する。実験結果から,lhdffは他の既存モデルと比較して布地データとオーディオキャプタデータセットで最高の性能が得られることがわかった。

関連論文リスト

Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine [16.046905753937384]
本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。提案手法では,残差ベクトル量子化(RVQ)損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能を最小限に抑えた超低コーデック(200bps未満)を提供する。
論文参考訳（メタデータ） (2025-07-17T00:32:07Z)
DGFNet: End-to-End Audio-Visual Source Separation Based on Dynamic Gating Fusion [1.292190360867547]
現在のオーディオ・ビジュアル・ソース分離法は主に2つの設計戦略を採用する。最初の戦略は、エンコーダのボトルネック層にオーディオと視覚的特徴を融合させ、続いてデコーダを通じて融合した特徴を処理することである。第2の戦略は直接融合を避け、代わりにオーディオと視覚的特徴の相互作用を扱うためにデコーダに依存している。本稿では,モダリティ融合度を動的に調整するゲーティング機構に基づく動的融合法を提案する。
論文参考訳（メタデータ） (2025-04-30T06:55:24Z)
Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-21T18:39:31Z)
Breaking the Encoder Barrier for Seamless Video-Language Understanding [22.749949819082484]
視覚エンコーダに依存しないニュアンス付きビデオ言語インタラクションを直接モデル化するエンコーダフリーLLMであるELVAを提案する。公開されているビデオテキストペアはわずか700万で、ELVAはエンコーダベースのVideo-LLMと同等のパフォーマンスを実現し、FLOPを最大95%削減し、推論遅延を92%削減した。
論文参考訳（メタデータ） (2025-03-24T08:06:39Z)
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳（メタデータ） (2025-03-11T17:51:07Z)
High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文参考訳（メタデータ） (2024-10-03T15:40:58Z)
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文参考訳（メタデータ） (2024-07-09T07:15:56Z)
Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文参考訳（メタデータ） (2024-05-10T09:18:17Z)
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文参考訳（メタデータ） (2023-09-06T19:42:52Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文参考訳（メタデータ） (2023-06-19T03:10:57Z)
Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文参考訳（メタデータ） (2023-06-17T14:16:24Z)
Efficient VVC Intra Prediction Based on Deep Feature Fusion and Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文参考訳（メタデータ） (2022-05-07T08:01:32Z)
Automatic Audio Captioning using Attention weighted Event based Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。 AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文参考訳（メタデータ） (2022-01-28T05:54:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。