論文の概要: Efficient Audio Captioning Transformer with Patchout and Text Guidance
- arxiv url: http://arxiv.org/abs/2304.02916v1
- Date: Thu, 6 Apr 2023 07:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:56:16.169131
- Title: Efficient Audio Captioning Transformer with Patchout and Text Guidance
- Title(参考訳): パッチアウトとテキスト誘導による効率的な音声字幕変換器
- Authors: Thodoris Kouzelis, Grigoris Bastas, Athanasios Katsamanis and
Alexandros Potamianos
- Abstract要約: 本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
- 参考スコア(独自算出の注目度): 74.59739661383726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated audio captioning is multi-modal translation task that aim to
generate textual descriptions for a given audio clip. In this paper we propose
a full Transformer architecture that utilizes Patchout as proposed in [1],
significantly reducing the computational complexity and avoiding overfitting.
The caption generation is partly conditioned on textual AudioSet tags extracted
by a pre-trained classification model which is fine-tuned to maximize the
semantic similarity between AudioSet labels and ground truth captions. To
mitigate the data scarcity problem of Automated Audio Captioning we introduce
transfer learning from an upstream audio-related task and an enlarged in-domain
dataset. Moreover, we propose a method to apply Mixup augmentation for AAC.
Ablation studies are carried out to investigate how Patchout and text guidance
contribute to the final performance. The results show that the proposed
techniques improve the performance of our system and while reducing the
computational complexity. Our proposed method received the Judges Award at the
Task6A of DCASE Challenge 2022.
- Abstract(参考訳): 自動音声キャプション(automated audio captioning)は、与えられた音声クリップのテキスト記述を生成するマルチモーダル翻訳タスクである。
本稿では,Patchoutを[1]で提案したようにフルトランスフォーマーアーキテクチャを提案し,計算複雑性を大幅に低減し,オーバーフィッティングを回避する。
このキャプション生成は、事前訓練された分類モデルにより抽出されたテキストAudioSetタグに部分的に条件付けされ、AudioSetラベルと接地真理字幕とのセマンティックな類似性を最大化するために微調整される。
自動音声キャプションにおけるデータ不足問題を解決するために,上流の音声関連タスクと拡大したインドメインデータセットからの転送学習を導入する。
さらに,AACにMixup Augmentationを適用する手法を提案する。
Patchoutとテキストガイダンスが最終的なパフォーマンスにどのように貢献するかを調べるためのアブレーション研究を行った。
その結果,提案手法はシステムの性能を向上し,計算複雑性を低減できることがわかった。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
関連論文リスト
- Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。