論文の概要: A Transformer-based Audio Captioning Model with Keyword Estimation
- arxiv url: http://arxiv.org/abs/2007.00222v2
- Date: Sat, 8 Aug 2020 06:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:35:29.543854
- Title: A Transformer-based Audio Captioning Model with Keyword Estimation
- Title(参考訳): キーワード推定を用いた変圧器型音声キャプションモデル
- Authors: Yuma Koizumi, Ryo Masumura, Kyosuke Nishida, Masahiro Yasuda,
Shoichiro Saito
- Abstract要約: 自動音声キャプション(AAC)の問題点の1つは、音声イベント/シーンに対応する単語選択の不確定性である。
本稿では,TRACKEと呼ばれるキーワード推定を用いたトランスフォーマーに基づく音声キャプションモデルを提案する。
音響事象検出/音響シーン分類のサブタスクを実行しながら、AACのメインタスクと単語選択の不確定問題を同時に解決する。
- 参考スコア(独自算出の注目度): 36.507981376481354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the problems with automated audio captioning (AAC) is the
indeterminacy in word selection corresponding to the audio event/scene. Since
one acoustic event/scene can be described with several words, it results in a
combinatorial explosion of possible captions and difficulty in training. To
solve this problem, we propose a Transformer-based audio-captioning model with
keyword estimation called TRACKE. It simultaneously solves the word-selection
indeterminacy problem with the main task of AAC while executing the sub-task of
acoustic event detection/acoustic scene classification (i.e., keyword
estimation). TRACKE estimates keywords, which comprise a word set corresponding
to audio events/scenes in the input audio, and generates the caption while
referring to the estimated keywords to reduce word-selection indeterminacy.
Experimental results on a public AAC dataset indicate that TRACKE achieved
state-of-the-art performance and successfully estimated both the caption and
its keywords.
- Abstract(参考訳): 自動音声キャプション(AAC)の問題点の1つは、音声イベント/シーンに対応する単語選択の不確定性である。
ある音響イベント/シーンは複数の単語で記述できるため、キャプションの可能性と訓練の難しさが組み合わせて爆発する。
そこで本研究では, キーワード推定を行うトランスベースオーディオキャプチャモデルであるtrackeを提案する。
音響事象検出/音響シーン分類(キーワード推定)のサブタスクを実行しながら、AACのメインタスクで単語選択の不確定問題を同時に解決する。
TRACKEは、入力音声の音声イベント/シーンに対応する単語セットからなるキーワードを推定し、推定キーワードを参照しながらキャプションを生成し、単語選択の不確定性を減少させる。
公開AACデータセットによる実験結果から,TRACKEは最先端の性能を達成し,キャプションとキーワードの両方を推定できた。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection [17.54377669932433]
本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
論文 参考訳(メタデータ) (2020-05-24T15:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。