論文の概要: MAGIC-Enhanced Keyword Prompting for Zero-Shot Audio Captioning with CLIP Models
- arxiv url: http://arxiv.org/abs/2509.12591v1
- Date: Tue, 16 Sep 2025 02:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.844919
- Title: MAGIC-Enhanced Keyword Prompting for Zero-Shot Audio Captioning with CLIP Models
- Title(参考訳): CLIPモデルによるゼロショット音声キャプションのためのMAGIC強化キーワードプロンプト
- Authors: Vijay Govindarajan, Pratik Patel, Sahil Tripathi, Md Azizul Hoque, Gautam Siddharth Kashyap,
- Abstract要約: Automated Audio Captioning (AAC)はオーディオクリップのキャプションを生成するが、限られたデータセットのために課題に直面している。
本稿では,事前学習モデルを活用するゼロショットAACシステムを提案する。
実験結果は、WavCapsモデルを用いたMAGICサーチにより、NLG平均スコア(4.7から7.3まで)が35%向上したことを示している。
- 参考スコア(独自算出の注目度): 2.3310964423816896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Audio Captioning (AAC) generates captions for audio clips but faces challenges due to limited datasets compared to image captioning. To overcome this, we propose the zero-shot AAC system that leverages pre-trained models, eliminating the need for extensive training. Our approach uses a pre-trained audio CLIP model to extract auditory features and generate a structured prompt, which guides a Large Language Model (LLM) in caption generation. Unlike traditional greedy decoding, our method refines token selection through the audio CLIP model, ensuring alignment with the audio content. Experimental results demonstrate a 35% improvement in NLG mean score (from 4.7 to 7.3) using MAGIC search with the WavCaps model. The performance is heavily influenced by the audio-text matching model and keyword selection, with optimal results achieved using a single keyword prompt, and a 50% performance drop when no keyword list is used.
- Abstract(参考訳): AAC(Automated Audio Captioning)は、音声クリップのキャプションを生成するが、画像キャプションと比較してデータセットが限られているため、課題に直面している。
そこで本研究では,事前学習モデルを利用したゼロショットAACシステムを提案する。
提案手法では,事前学習したCLIPモデルを用いて聴覚特徴を抽出し,構造化されたプロンプトを生成し,キャプション生成においてLarge Language Model (LLM) を誘導する。
従来のグリーディ復号法とは異なり、音声CLIPモデルによりトークン選択を洗練し、音声コンテンツとの整合性を確保する。
実験結果は、WavCapsモデルを用いたMAGICサーチにより、NLG平均スコア(4.7から7.3まで)が35%向上したことを示している。
この性能は音声テキストマッチングモデルとキーワード選択に大きく影響され、単一のキーワードプロンプトを用いて最適な結果が得られ、キーワードリストが使用されていない場合、50%のパフォーマンス低下が達成される。
関連論文リスト
- Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos [16.213708405651644]
LG-CAV-MAEは、事前訓練されたテキストエンコーダを、コントラストのあるオーディオ視覚マスク付きオートエンコーダに統合する。
本稿では,LG-CAV-MAEをトレーニングするために,ラベルなしビデオから音声・視覚テキスト三重奏を生成する自動手法を提案する。
このアプローチは、手動のアノテーションを必要とせず、高品質な音声-視覚-テキスト三つ子を生成する。
論文 参考訳(メタデータ) (2025-07-16T06:58:14Z) - Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding [30.46616330202622]
自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。
大規模言語モデル(LLM)の最近の進歩は、AACを改善する可能性を広げている。
提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。
論文 参考訳(メタデータ) (2024-06-19T07:09:46Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。