論文の概要: DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning
- arxiv url: http://arxiv.org/abs/2410.09472v1
- Date: Sat, 12 Oct 2024 10:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:14:38.037223
- Title: DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning
- Title(参考訳): DRCap:Zero-shot Audio Captioningのための検索拡張生成によるCLAPラテントデコード
- Authors: Xiquan Li, Wenxi Chen, Ziyang Ma, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Qiuqiang Kong, Xie Chen,
- Abstract要約: DRCapはデータ効率が高く柔軟なゼロショットオーディオキャプションシステムである。
トレーニングにはテキストのみのデータが必要で、微調整を加えることなく、新しいドメインに迅速に適応できる。
- 参考スコア(独自算出の注目度): 13.601154787754046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While automated audio captioning (AAC) has made notable progress, traditional fully supervised AAC models still face two critical challenges: the need for expensive audio-text pair data for training and performance degradation when transferring across domains. To overcome these limitations, we present DRCap, a data-efficient and flexible zero-shot audio captioning system that requires text-only data for training and can quickly adapt to new domains without additional fine-tuning. DRCap integrates a contrastive language-audio pre-training (CLAP) model and a large-language model (LLM) as its backbone. During training, the model predicts the ground-truth caption with a fixed text encoder from CLAP, whereas, during inference, the text encoder is replaced with the audio encoder to generate captions for audio clips in a zero-shot manner. To mitigate the modality gap of the CLAP model, we use both the projection strategy from the encoder side and the retrieval-augmented generation strategy from the decoder side. Specifically, audio embeddings are first projected onto a text embedding support to absorb extensive semantic information within the joint multi-modal space of CLAP. At the same time, similar captions retrieved from a datastore are fed as prompts to instruct the LLM, incorporating external knowledge to take full advantage of its strong generative capability. Conditioned on both the projected CLAP embedding and the retrieved similar captions, the model is able to produce a more accurate and semantically rich textual description. By tailoring the text embedding support and the caption datastore to the target domain, DRCap acquires a robust ability to adapt to new domains in a training-free manner. Experimental results demonstrate that DRCap outperforms all other zero-shot models in in-domain scenarios and achieves state-of-the-art performance in cross-domain scenarios.
- Abstract(参考訳): 自動音声キャプション(AAC)は目覚ましい進歩を遂げているが、従来の完全教師付きAACモデルは、トレーニングのための高価なオーディオテキストペアデータと、ドメイン間の転送時のパフォーマンス劣化という、2つの重要な課題に直面している。
これらの制限を克服するために、DRCapはデータ効率が高く柔軟なゼロショット音声キャプションシステムで、トレーニング用にテキストのみのデータを必要とする。
DRCapは、CLAP(Language-audio pre-training)モデルとLLM(Large-Language Model)をバックボーンとして統合している。
トレーニング中、モデルはCLAPから固定テキストエンコーダで接地トラスキャプションを予測し、推論中はテキストエンコーダをオーディオエンコーダに置き換え、ゼロショットでオーディオクリップのキャプションを生成する。
CLAPモデルのモダリティギャップを軽減するために,エンコーダ側からの投影戦略とデコーダ側からの検索拡張生成戦略の両方を用いる。
具体的には、まずテキスト埋め込み支援に音声埋め込みを投影し、CLAPのジョイントマルチモーダル空間内で広範囲な意味情報を吸収する。
同時に、データストアから取得した類似のキャプションをLSMに指示するプロンプトとして送り、外部知識を取り入れて、その強力な生成能力を最大限に活用する。
予測されたCLAP埋め込みと検索された類似のキャプションの両方に基づいて、モデルはより正確で意味的にリッチなテキスト記述を生成することができる。
テキスト埋め込みサポートとキャプションデータストアをターゲットドメインに調整することにより、DRCapはトレーニング不要な方法で新しいドメインに適応する堅牢な能力を得る。
実験の結果、DRCapはドメイン内シナリオにおける他のゼロショットモデルよりも優れており、ドメイン間シナリオにおける最先端のパフォーマンスを実現している。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文 参考訳(メタデータ) (2023-09-21T16:40:46Z) - RECAP: Retrieval-Augmented Audio Captioning [46.27383142898749]
本稿では,入力音声に条件付きキャプションを生成する新しい効果的な音声キャプションシステムRECAPを提案する。
提案手法は、追加の微調整を必要とせずに任意のドメインに転送できる。
この分野での研究を促進するために、AudioSet、AudioCaps、Clothoの弱いラベル付きキャプションを新たに15万以上リリースしました。
論文 参考訳(メタデータ) (2023-09-18T14:53:08Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。