論文の概要: Caption Feature Space Regularization for Audio Captioning
- arxiv url: http://arxiv.org/abs/2204.08409v1
- Date: Mon, 18 Apr 2022 17:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 17:22:40.289901
- Title: Caption Feature Space Regularization for Audio Captioning
- Title(参考訳): 音声キャプションのためのキャプション特徴空間正規化
- Authors: Yiming Zhang, Hong Yu, Ruoyi Du, Zhanyu Ma, Yuan Dong
- Abstract要約: 一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
- 参考スコア(独自算出の注目度): 24.40864471466915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio captioning aims at describing the content of audio clips with human
language. Due to the ambiguity of audio, different people may perceive the same
audio differently, resulting in caption disparities (i.e., one audio may
correlate to several captions with diverse semantics). For that, general audio
captioning models achieve the one-to-many training by randomly selecting a
correlated caption as the ground truth for each audio. However, it leads to a
significant variation in the optimization directions and weakens the model
stability. To eliminate this negative effect, in this paper, we propose a
two-stage framework for audio captioning: (i) in the first stage, via the
contrastive learning, we construct a proxy feature space to reduce the
distances between captions correlated to the same audio, and (ii) in the second
stage, the proxy feature space is utilized as additional supervision to
encourage the model to be optimized in the direction that benefits all the
correlated captions. We conducted extensive experiments on two datasets using
four commonly used encoder and decoder architectures. Experimental results
demonstrate the effectiveness of the proposed method. The code is available at
https://github.com/PRIS-CV/Caption-Feature-Space-Regularization.
- Abstract(参考訳): 音声キャプションは、音声クリップの内容を人間の言語で記述することを目的としている。
音声のあいまいさのため、異なる人が同じ音声を知覚し、キャプションの相違が生じる(つまり、1つのオーディオは複数のキャプションと様々な意味論に関連付けられる)。
そのため、一般音声キャプションモデルは、無作為に相関したキャプションを各音声の基底的真理として選択することで、1対1の訓練を実現する。
しかし、最適化の方向性に大きな変化をもたらし、モデルの安定性を弱める。
この負の効果を排除するために,本稿では,音声キャプションのための2段階フレームワークを提案する。
(i) 第一段階では, コントラスト学習を通じて, 同一の音声に関連付けられた字幕間の距離を減らすために, プロキシ特徴空間を構築する。
(ii)第2段階では、プロキシ機能空間が追加の監督として利用され、モデルがすべての相関キャプションの恩恵を受ける方向に最適化されるように促される。
4つのエンコーダとデコーダアーキテクチャを用いて、2つのデータセットを広範囲に実験した。
実験の結果,提案手法の有効性が示された。
コードはhttps://github.com/PRIS-CV/Caption-Feature-Space-Regularizationで公開されている。
関連論文リスト
- Audio Difference Learning for Audio Captioning [44.55621877667949]
本研究では,音声キャプション改善のための新しい学習パラダイムである音声差分学習を導入する。
Clotho と ESC50 のデータセットを用いた実験では,従来の手法と比較してSPIDEr のスコアが7%向上した。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Audio Difference Captioning Utilizing Similarity-Discrepancy
Disentanglement [22.924746293106715]
ADCは、従来の音声キャプションが類似した音声クリップの字幕を生成する場合があり、内容の違いを記述できない。
また,一対のオーディオクリップと類似性差分アンハングメントを比較し,遅延空間の差を強調することで,差分を抽出するクロスアテンション集中型トランスフォーマーエンコーダを提案する。
AudioDiffCapsデータセットを用いた実験により,提案手法はADCタスクを効果的に解き,アテンション重みを改良し,トランスフォーマーエンコーダに表示することで差分を抽出することを示した。
論文 参考訳(メタデータ) (2023-08-23T05:13:25Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。