論文の概要: CL4AC: A Contrastive Loss for Audio Captioning
- arxiv url: http://arxiv.org/abs/2107.09990v1
- Date: Wed, 21 Jul 2021 10:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:06:32.050886
- Title: CL4AC: A Contrastive Loss for Audio Captioning
- Title(参考訳): CL4AC:オーディオキャプションのコントラスト損失
- Authors: Xubo Liu, Qiushi Huang, Xinhao Mei, Tom Ko, H Lilian Tang, Mark D.
Plumbley and Wenwu Wang
- Abstract要約: CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
- 参考スコア(独自算出の注目度): 43.83939284740561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Audio captioning (AAC) is a cross-modal translation task that aims
to use natural language to describe the content of an audio clip. As shown in
the submissions received for Task 6 of the DCASE 2021 Challenges, this problem
has received increasing interest in the community. The existing AAC systems are
usually based on an encoder-decoder architecture, where the audio signal is
encoded into a latent representation, and aligned with its corresponding text
descriptions, then a decoder is used to generate the captions. However,
training of an AAC system often encounters the problem of data scarcity, which
may lead to inaccurate representation and audio-text alignment. To address this
problem, we propose a novel encoder-decoder framework called Contrastive Loss
for Audio Captioning (CL4AC). In CL4AC, the self-supervision signals derived
from the original audio-text paired data are used to exploit the
correspondences between audio and texts by contrasting samples, which can
improve the quality of latent representation and the alignment between audio
and texts, while trained with limited data. Experiments are performed on the
Clotho dataset to show the effectiveness of our proposed approach.
- Abstract(参考訳): 自動音声キャプション (Automated Audio Casting, AAC) は、音声クリップの内容を自然言語で記述することを目的としたクロスモーダル翻訳タスクである。
dcase 2021チャレンジのタスク6で受け取った提案に示されているように、この問題はコミュニティの関心を集めている。
既存のAACシステムは通常、エンコーダ・デコーダアーキテクチャに基づいており、そこでは音声信号が潜在表現に符号化され、対応するテキスト記述と一致し、デコーダを使用してキャプションを生成する。
しかし、AACシステムのトレーニングはデータ不足の問題にしばしば遭遇し、不正確な表現や音声テキストのアライメントにつながる可能性がある。
この問題に対処するため,CL4AC (Contrastive Loss for Audio Captioning) と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、サンプルを対比することで音声とテキストの対応を利用して、限られたデータで訓練しながら、潜時表現の質と音声とテキストのアライメントを改善することができる。
提案手法の有効性を示すため,布地データセット上で実験を行った。
関連論文リスト
- DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning [13.601154787754046]
DRCapはデータ効率が高く柔軟なゼロショットオーディオキャプションシステムである。
トレーニングにはテキストのみのデータが必要で、微調整を加えることなく、新しいドメインに迅速に適応できる。
論文 参考訳(メタデータ) (2024-10-12T10:21:00Z) - Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - RECAP: Retrieval-Augmented Audio Captioning [46.27383142898749]
本稿では,入力音声に条件付きキャプションを生成する新しい効果的な音声キャプションシステムRECAPを提案する。
提案手法は、追加の微調整を必要とせずに任意のドメインに転送できる。
この分野での研究を促進するために、AudioSet、AudioCaps、Clothoの弱いラベル付きキャプションを新たに15万以上リリースしました。
論文 参考訳(メタデータ) (2023-09-18T14:53:08Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Local Information Assisted Attention-free Decoder for Audio Captioning [52.191658157204856]
本稿では,PANNをベースとしたエンコーダを音声特徴抽出に用いるアテンションフリーデコーダを用いたAAC手法を提案する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
論文 参考訳(メタデータ) (2022-01-10T08:55:52Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。