論文の概要: Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning
- arxiv url: http://arxiv.org/abs/2502.05435v1
- Date: Sat, 08 Feb 2025 03:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:36.835789
- Title: Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning
- Title(参考訳): 高品質オーディオキャプションのための無バイアススライスワッサースタインカーネル
- Authors: Manh Luong, Khai Nguyen, Dinh Phung, Gholamreza Haffari, Lizhen Qu,
- Abstract要約: 非バイアススライスされたWasserstein RBFカーネルを導入し、時間相似性スコアを開発する。
また、未バイアススライスされたWassersteinカーネルに基づくオーディオキャプションフレームワークも導入する。
- 参考スコア(独自算出の注目度): 55.41070713054046
- License:
- Abstract: Teacher-forcing training for audio captioning usually leads to exposure bias due to training and inference mismatch. Prior works propose the contrastive method to deal with caption degeneration. However, the contrastive method ignores the temporal information when measuring similarity across acoustic and linguistic modalities, leading to inferior performance. In this work, we develop the temporal-similarity score by introducing the unbiased sliced Wasserstein RBF (USW-RBF) kernel equipped with rotary positional embedding to account for temporal information across modalities. In contrast to the conventional sliced Wasserstein RBF kernel, we can form an unbiased estimation of USW-RBF kernel via Monte Carlo estimation. Therefore, it is well-suited to stochastic gradient optimization algorithms, and its approximation error decreases at a parametric rate of $\mathcal{O}(L^{-1/2})$ with $L$ Monte Carlo samples. Additionally, we introduce an audio captioning framework based on the unbiased sliced Wasserstein kernel, incorporating stochastic decoding methods to mitigate caption degeneration during the generation process. We conduct extensive quantitative and qualitative experiments on two datasets, AudioCaps and Clotho, to illustrate the capability of generating high-quality audio captions. Experimental results show that our framework is able to increase caption length, lexical diversity, and text-to-audio self-retrieval accuracy.
- Abstract(参考訳): 音声キャプションの教師強制トレーニングは通常、トレーニングや推論ミスマッチによる露出バイアスを引き起こす。
先行研究では, キャプションの劣化に対処するコントラスト法が提案されている。
しかし、コントラッシブな手法は、音響的・言語的モーダル間の類似度を測定する際に時間的情報を無視し、性能が劣る。
本研究では,非バイアススライスされた Wasserstein RBF (USW-RBF) カーネルに回転位置埋め込みを導入し,時間的情報量を考慮した時間的相似スコアを開発する。
従来のスライスされたワッサースタインRBFカーネルとは対照的に、モンテカルロ推定によりUSW-RBFカーネルを非バイアスで推定することができる。
したがって、確率勾配最適化アルゴリズムに適しており、その近似誤差は、モンテカルロサンプルが$L$のパラメトリックレート$\mathcal{O}(L^{-1/2})$で減少する。
さらに,非バイアススライスされたWassersteinカーネルをベースとした音声キャプションフレームワークを導入し,生成過程におけるキャプションの劣化を軽減するための確率的デコード手法を取り入れた。
高品質な音声キャプションを生成する能力を説明するために,AudioCaps と Clotho の2つのデータセットに対して,広範囲にわたる定量的および定性的な実験を行った。
実験結果から,本フレームワークは字幕長,語彙の多様性,音声による自己検索精度を向上させることができることがわかった。
関連論文リスト
- Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech [4.348588963853261]
メルスペクトルを生成するスコアベースデコーダを用いた新しい音声合成モデルGrad-TTSを提案する。
フレキシブル微分方程式の枠組みは、従来の拡散確率モデルを一般化するのに役立ちます。
主観評価の結果,Grad-TTS は平均オピニオンスコアにおいて最先端の音声合成手法と競合していることがわかった。
論文 参考訳(メタデータ) (2021-05-13T14:47:44Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning [8.7660229706359]
本稿では,画像キャプションモデルに対するポリシー段階に基づく強化学習手法のベイズ版を提案する。
ベイズ推論を取り入れた画像キャプションモデルに対する、よく知られた自己批判シーケンストレーニング(SCST)アプローチを拡張した。
B-SCST は Flickr30k,MS COCO,VizWiz 画像キャプションデータセットの CIDEr-D スコアを SCST アプローチと比較して改善することを示した。
論文 参考訳(メタデータ) (2020-04-06T07:07:41Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。