論文の概要: Zero-Shot Audio Captioning via Audibility Guidance
- arxiv url: http://arxiv.org/abs/2309.03884v1
- Date: Thu, 7 Sep 2023 17:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:57:51.757040
- Title: Zero-Shot Audio Captioning via Audibility Guidance
- Title(参考訳): 聴覚指導によるゼロショット音声キャプション
- Authors: Tal Shaharabany, Ariel Shaulov and Lior Wolf
- Abstract要約: 音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 57.70351255180495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of audio captioning is similar in essence to tasks such as image and
video captioning. However, it has received much less attention. We propose
three desiderata for captioning audio -- (i) fluency of the generated text,
(ii) faithfulness of the generated text to the input audio, and the somewhat
related (iii) audibility, which is the quality of being able to be perceived
based only on audio. Our method is a zero-shot method, i.e., we do not learn to
perform captioning. Instead, captioning occurs as an inference process that
involves three networks that correspond to the three desired qualities: (i) A
Large Language Model, in our case, for reasons of convenience, GPT-2, (ii) A
model that provides a matching score between an audio file and a text, for
which we use a multimodal matching network called ImageBind, and (iii) A text
classifier, trained using a dataset we collected automatically by instructing
GPT-4 with prompts designed to direct the generation of both audible and
inaudible sentences. We present our results on the AudioCap dataset,
demonstrating that audibility guidance significantly enhances performance
compared to the baseline, which lacks this objective.
- Abstract(参考訳): 音声キャプションのタスクは、画像キャプションやビデオキャプションといったタスクと本質的に似ている。
しかし、あまり注目されていない。
キャプション音声のためのデシデラタを3つ提案する。
(i)生成されたテキストの流布
(二)入力音声に対する生成されたテキストの忠実度及びそれと何らかの関連性
(iii)可聴性(音声のみに基づいて知覚できる品質)
本手法はゼロショット法であり,キャプションの実行を学習していない。
代わりにキャプションは、3つの望ましい品質に対応する3つのネットワークを含む推論プロセスとして発生する。
一 便宜上の理由から、大言語モデル、GPT-2
2 音声ファイルとテキストのマッチングスコアを提供するモデルであって、ImageBindと呼ばれるマルチモーダルマッチングネットワークを用いており、
3) GPT-4を指示し, 自動収集したデータセットを用いて学習したテキスト分類器において, 可聴文と可聴文の両方の生成を指示するプロンプトを付与した。
本稿では,AudioCapデータセットを用いて,この目的を欠くベースラインと比較して,聴力誘導が性能を著しく向上させることを示す。
関連論文リスト
- Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。
提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。
実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-05T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。