論文の概要: RECAP: Retrieval-Augmented Audio Captioning
- arxiv url: http://arxiv.org/abs/2309.09836v1
- Date: Mon, 18 Sep 2023 14:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:49:52.697161
- Title: RECAP: Retrieval-Augmented Audio Captioning
- Title(参考訳): recap: 検索型音声キャプション
- Authors: Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani
Duraiswami, Dinesh Manocha
- Abstract要約: RECAP(Retrieval-Augmented Audio CAPtioning)は、データストアから取得したオーディオに似た入力オーディオや他のキャプションに条件付けされたキャプションを生成する。
提案手法は、追加の微調整を必要とせずに任意のドメインに転送できる。
この分野での研究を促進するために、AudioSet、AudioCaps、Clothoの弱いラベル付きキャプションを新たに15万以上リリースしました。
- 参考スコア(独自算出の注目度): 49.0324838952586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RECAP (REtrieval-Augmented Audio CAPtioning), a novel and
effective audio captioning system that generates captions conditioned on an
input audio and other captions similar to the audio retrieved from a datastore.
Additionally, our proposed method can transfer to any domain without the need
for any additional fine-tuning. To generate a caption for an audio sample, we
leverage an audio-text model CLAP to retrieve captions similar to it from a
replaceable datastore, which are then used to construct a prompt. Next, we feed
this prompt to a GPT-2 decoder and introduce cross-attention layers between the
CLAP encoder and GPT-2 to condition the audio for caption generation.
Experiments on two benchmark datasets, Clotho and AudioCaps, show that RECAP
achieves competitive performance in in-domain settings and significant
improvements in out-of-domain settings. Additionally, due to its capability to
exploit a large text-captions-only datastore in a \textit{training-free}
fashion, RECAP shows unique capabilities of captioning novel audio events never
seen during training and compositional audios with multiple events. To promote
research in this space, we also release 150,000+ new weakly labeled captions
for AudioSet, AudioCaps, and Clotho.
- Abstract(参考訳): 本稿では,データストアから検索された音声に類似した入力音声および他のキャプションに条件付けられたキャプションを生成する,新規かつ効果的な音声キャプションシステムであるrecap(retrieval-augmented audio captioning)を提案する。
さらに,提案手法は,追加の微調整を必要とせずに任意の領域に転送できる。
音声サンプルのキャプションを生成するために,音声テキストモデルCLAPを用いて置換可能なデータストアから類似のキャプションを検索し,プロンプトを構築する。
次に、このプロンプトをGPT-2デコーダに供給し、CLAPエンコーダとGPT-2の間にクロスアテンション層を導入し、キャプション生成のためのオーディオを条件付ける。
ClothoとAudioCapsという2つのベンチマークデータセットの実験では、RECAPはドメイン内設定の競合性能とドメイン外設定の大幅な改善を実現している。
さらに、大容量のテキストキャプションのみのデータストアを \textit{training-free} 形式で活用できるため、RECAPはトレーニング中に見たことのない新しいオーディオイベントや、複数のイベントを持つ合成オーディオをキャプションするユニークな機能を示している。
この分野での研究を促進するために、オーディオセット、オーディオキャップ、布地などの弱いラベル付きキャプション15万以上もリリースしています。
関連論文リスト
- Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research [90.01270531446059]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Towards Generating Diverse Audio Captions via Adversarial Training [52.163818279075194]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。