論文の概要: Zero-shot audio captioning with audio-language model guidance and audio
context keywords
- arxiv url: http://arxiv.org/abs/2311.08396v1
- Date: Tue, 14 Nov 2023 18:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:49:09.652005
- Title: Zero-shot audio captioning with audio-language model guidance and audio
context keywords
- Title(参考訳): 音声言語モデル指導と音声コンテキストキーワードを用いたゼロショット音声キャプション
- Authors: Leonard Salewski, Stefan Fauth, A. Sophia Koepke, Zeynep Akata
- Abstract要約: タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
- 参考スコア(独自算出の注目度): 59.58331215337357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot audio captioning aims at automatically generating descriptive
textual captions for audio content without prior training for this task.
Different from speech recognition which translates audio content that contains
spoken language into text, audio captioning is commonly concerned with ambient
sounds, or sounds produced by a human performing an action. Inspired by
zero-shot image captioning methods, we propose ZerAuCap, a novel framework for
summarising such general audio signals in a text caption without requiring
task-specific training. In particular, our framework exploits a pre-trained
large language model (LLM) for generating the text which is guided by a
pre-trained audio-language model to produce captions that describe the audio
content. Additionally, we use audio context keywords that prompt the language
model to generate text that is broadly relevant to sounds. Our proposed
framework achieves state-of-the-art results in zero-shot audio captioning on
the AudioCaps and Clotho datasets. Our code is available at
https://github.com/ExplainableML/ZerAuCap.
- Abstract(参考訳): ゼロショット音声キャプションは、このタスクの事前訓練なしに、音声コンテンツの記述文キャプションを自動的に生成することを目的としている。
音声言語を含む音声コンテンツをテキストに変換する音声認識とは異なり、音声キャプションは、行動を行う人間が発する周囲の音や音に一般的に関係している。
ゼロショット画像キャプション方式に着想を得たZerAuCapは,タスク固有の訓練を必要とせず,テキストキャプション内でそのような一般的な音声信号を要約する新しいフレームワークである。
特に,事前学習された音声言語モデルによって導かれたテキストを生成するために,事前学習された大言語モデル(llm)を活用し,音声コンテンツを記述するキャプションを生成する。
さらに,音声に関係のあるテキストを生成するために,音声コンテキストキーワードを用いて言語モデルに促す。
提案フレームワークは,オーディオキャップと布地データセットのゼロショット音声キャプションによる最先端の音声キャプションを実現する。
私たちのコードはhttps://github.com/ExplainableML/ZerAuCapで利用可能です。
関連論文リスト
- Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Translating speech with just images [23.104041372055466]
既存の画像キャプションシステムを介して、画像とテキストをリンクすることで、この接続を拡張します。
このアプローチは、生成されたキャプションと異なる言語で音声を付加することにより、画像のみを用いた音声翻訳に使用できる。
実際の低リソース言語であるYorub'aについて検討し、Yorub'a-to- English 音声翻訳モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:29:24Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。