論文の概要: EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation
- arxiv url: http://arxiv.org/abs/2410.12028v1
- Date: Tue, 15 Oct 2024 19:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:43.351737
- Title: EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation
- Title(参考訳): EmotionCaps:感情強化データ生成によるオーディオキャプションの強化
- Authors: Mithun Manivannan, Vignesh Nethrapalli, Mark Cartwright,
- Abstract要約: EmotionCapsは、約12万の音声クリップと、音声景観の感情認識情報に富んだ合成記述を組み合わせた音声キャプションデータセットである。
本研究は, キャプションモデルの開発と評価のための新しい方向の提案と, キャプティングへの現在のアプローチに挑戦するものである。
- 参考スコア(独自算出の注目度): 3.696171835644556
- License:
- Abstract: Recent progress in audio-language modeling, such as automated audio captioning, has benefited from training on synthetic data generated with the aid of large-language models. However, such approaches for environmental sound captioning have primarily focused on audio event tags and have not explored leveraging emotional information that may be present in recordings. In this work, we explore the benefit of generating emotion-augmented synthetic audio caption data by instructing ChatGPT with additional acoustic information in the form of estimated soundscape emotion. To do so, we introduce EmotionCaps, an audio captioning dataset comprised of approximately 120,000 audio clips with paired synthetic descriptions enriched with soundscape emotion recognition (SER) information. We hypothesize that this additional information will result in higher-quality captions that match the emotional tone of the audio recording, which will, in turn, improve the performance of captioning models trained with this data. We test this hypothesis through both objective and subjective evaluation, comparing models trained with the EmotionCaps dataset to multiple baseline models. Our findings challenge current approaches to captioning and suggest new directions for developing and assessing captioning models.
- Abstract(参考訳): 音声の自動キャプションなどの音声言語モデリングの最近の進歩は、大規模モデルの助けを借りて生成された合成データのトレーニングの恩恵を受けている。
しかし、このような環境音のキャプションのアプローチは、主に音声イベントタグに焦点を合わせており、録音に現れる可能性のある感情情報の活用について検討していない。
そこで本研究では,ChatGPTに音響情報を加えることで,感情を付加した合成音声キャプションデータを生成する利点について検討する。
そこで本研究では,約12万の音声クリップからなる音声キャプションデータセットであるEmotionCapsを紹介し,音声スケープ感情認識(SER)情報に富んだ合成記述を合成する。
この追加情報により、音声録音の感情的トーンにマッチする高品質なキャプションが得られ、それによって、このデータで訓練されたキャプションモデルの性能が向上する、という仮説を立てる。
EmotionCapsデータセットを用いてトレーニングされたモデルと,複数のベースラインモデルを比較し,客観的および主観的評価の両面からこの仮説を検証した。
本研究は, キャプションモデルの開発と評価のための新しい方向の提案と, キャプティングへの現在のアプローチに挑戦するものである。
関連論文リスト
- Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - A Whisper transformer for audio captioning trained with synthetic
captions and transfer learning [0.0]
本稿では,事前学習された音声-テキスト-Whisperモデルの使用と,合成キャプションによる事前学習に着目し,音声キャプションへのアプローチを提案する。
以上の結果から,異なる学習方法が音響キャプションモデルの性能に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-05-15T22:20:07Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Describing emotions with acoustic property prompts for speech emotion
recognition [30.990720176317463]
本研究では、ピッチ、ラウドネス、発声率、調音率などの音響特性を演算することで、所定の音声に対する記述を自動生成する手法を提案する。
これらの音声テキストペアを用いてニューラルネットワークモデルをトレーニングし、さらに1つのデータセットを用いてモデルを評価する。
モデルが音声と記述を関連づけることについて検討し,その結果,音声の感情認識と音声検索の性能が向上した。
論文 参考訳(メタデータ) (2022-11-14T20:29:37Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。