論文の概要: Audio Difference Captioning Utilizing Similarity-Discrepancy
Disentanglement
- arxiv url: http://arxiv.org/abs/2308.11923v1
- Date: Wed, 23 Aug 2023 05:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:37:02.469419
- Title: Audio Difference Captioning Utilizing Similarity-Discrepancy
Disentanglement
- Title(参考訳): 類似性不一致を利用した音声差分キャプション
- Authors: Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio
Kashino
- Abstract要約: ADCは、従来の音声キャプションが類似した音声クリップの字幕を生成する場合があり、内容の違いを記述できない。
また,一対のオーディオクリップと類似性差分アンハングメントを比較し,遅延空間の差を強調することで,差分を抽出するクロスアテンション集中型トランスフォーマーエンコーダを提案する。
AudioDiffCapsデータセットを用いた実験により,提案手法はADCタスクを効果的に解き,アテンション重みを改良し,トランスフォーマーエンコーダに表示することで差分を抽出することを示した。
- 参考スコア(独自算出の注目度): 22.924746293106715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We proposed Audio Difference Captioning (ADC) as a new extension task of
audio captioning for describing the semantic differences between input pairs of
similar but slightly different audio clips. The ADC solves the problem that
conventional audio captioning sometimes generates similar captions for similar
audio clips, failing to describe the difference in content. We also propose a
cross-attention-concentrated transformer encoder to extract differences by
comparing a pair of audio clips and a similarity-discrepancy disentanglement to
emphasize the difference in the latent space. To evaluate the proposed methods,
we built an AudioDiffCaps dataset consisting of pairs of similar but slightly
different audio clips with human-annotated descriptions of their differences.
The experiment with the AudioDiffCaps dataset showed that the proposed methods
solve the ADC task effectively and improve the attention weights to extract the
difference by visualizing them in the transformer encoder.
- Abstract(参考訳): 類似の音声クリップの入力対間の意味的差異を記述するために,音声キャプションの新たな拡張タスクとして,ADC(Audio difference Captioning)を提案する。
ADCは、従来の音声キャプションが類似した音声クリップの字幕を生成する場合があり、内容の違いを記述できない。
また,一対のオーディオクリップと類似性差分アンハングメントを比較し,遅延空間の差を強調することで,差分を抽出するクロスアテンション集中型トランスフォーマーエンコーダを提案する。
提案手法を評価するために,類似するがわずかに異なる音声クリップのペアからなるAudioDiffCapsデータセットを構築した。
AudioDiffCapsデータセットを用いた実験により,提案手法はADCタスクを効果的に解き,アテンション重みを改良し,トランスフォーマーエンコーダに表示することで差分を抽出することを示した。
関連論文リスト
- LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Audio Difference Learning for Audio Captioning [44.55621877667949]
本研究では,音声キャプション改善のための新しい学習パラダイムである音声差分学習を導入する。
Clotho と ESC50 のデータセットを用いた実験では,従来の手法と比較してSPIDEr のスコアが7%向上した。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。