論文の概要: Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval
- arxiv url: http://arxiv.org/abs/2012.07331v1
- Date: Mon, 14 Dec 2020 08:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 06:10:13.309123
- Title: Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval
- Title(参考訳): 音声を用いた類似字幕検索による事前学習型大規模言語モデルによる音声キャプション
- Authors: Yuma Koizumi, Yasunori Ohishi, Daisuke Niizumi, Daiki Takeuchi,
Masahiro Yasuda
- Abstract要約: 音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
- 参考スコア(独自算出の注目度): 28.57294189207084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of audio captioning is to translate input audio into its description
using natural language. One of the problems in audio captioning is the lack of
training data due to the difficulty in collecting audio-caption pairs by
crawling the web. In this study, to overcome this problem, we propose to use a
pre-trained large-scale language model. Since an audio input cannot be directly
inputted into such a language model, we utilize guidance captions retrieved
from a training dataset based on similarities that may exist in different
audio. Then, the caption of the audio input is generated by using a pre-trained
language model while referring to the guidance captions. Experimental results
show that (i) the proposed method has succeeded to use a pre-trained language
model for audio captioning, and (ii) the oracle performance of the pre-trained
model-based caption generator was clearly better than that of the conventional
method trained from scratch.
- Abstract(参考訳): 音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
オーディオキャプションの問題点の1つは、ウェブをクロールすることでオーディオキャプションペアの収集が困難であるため、トレーニングデータの欠如である。
本研究では,この問題を解決するために,事前学習された大規模言語モデルを提案する。
このような言語モデルに音声入力を直接入力できないため、異なる音声に存在する類似性に基づいてトレーニングデータセットから検索したガイダンスキャプションを利用する。
そして、ガイダンスキャプションを参照しながら、事前訓練された言語モデルを用いて音声入力のキャプションを生成する。
実験の結果, (i) 音声キャプションに事前学習された言語モデルを用いることに成功し, (ii) 事前学習されたモデルに基づくキャプション生成器のoracleのパフォーマンスは, スクラッチから学習した従来の方法よりも明らかに優れていた。
関連論文リスト
- Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文 参考訳(メタデータ) (2024-01-10T05:15:09Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - An investigation on selecting audio pre-trained models for audio
captioning [5.837881923712393]
事前訓練されたモデルは、複雑さが高いため、オーディオキャプションで広く使用されている。
包括的システムが再訓練されない限り、事前訓練されたモデルが音声キャプションシステムにどの程度貢献するかを判断することは困難である。
本稿では,抽出音声特徴量と音声キャプション性能の相関関係について,事前学習した一連のモデルについて検討する。
論文 参考訳(メタデータ) (2022-08-12T06:14:20Z) - Leveraging Pre-trained BERT for Audio Captioning [45.16535378268039]
BERTは訓練済みの言語モデルであり、自然言語処理(NLP)タスクで広く使われている。
音声キャプションモデルにおけるデコーダに対するBERTモデルの使用に関する実証的研究を行った。
本稿では,AudioCapsデータセット上の既存の音声キャプション手法を用いて,競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-06T00:05:58Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。