論文の概要: Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning
- arxiv url: http://arxiv.org/abs/2009.11436v1
- Date: Thu, 24 Sep 2020 01:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:21:09.403337
- Title: Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning
- Title(参考訳): 音声キャプションにおける単語頻度に基づく前処理と後処理の効果
- Authors: Daiki Takeuchi, Yuma Koizumi, Yasunori Ohishi, Noboru Harada, Kunio
Kashino
- Abstract要約: 音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
- 参考スコア(独自算出の注目度): 49.41766997393417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The system we used for Task 6 (Automated Audio Captioning)of the Detection
and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge combines
three elements, namely, dataaugmentation, multi-task learning, and
post-processing, for audiocaptioning. The system received the highest
evaluation scores, butwhich of the individual elements most fully contributed
to its perfor-mance has not yet been clarified. Here, to asses their
contributions,we first conducted an element-wise ablation study on our systemto
estimate to what extent each element is effective. We then con-ducted a
detailed module-wise ablation study to further clarify thekey processing
modules for improving accuracy. The results showthat data augmentation and
post-processing significantly improvethe score in our system. In particular,
mix-up data augmentationand beam search in post-processing improve SPIDEr by
0.8 and 1.6points, respectively.
- Abstract(参考訳): 音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,後処理の3つの要素を組み合わせた。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
そこで我々はまず,各要素がどの程度有効であるかを推定するシステムについて,要素単位のアブレーション研究を行った。
そこで我々は,より詳細なモジュールワイドアブレーション研究を行い,その精度向上のためのthekey処理モジュールをさらに明らかにした。
その結果,データの増大と後処理により,システムのスコアが大幅に向上した。
特に、後処理におけるミックスアップデータ拡張とビーム探索は、それぞれ0.8ポイントと1.6ポイント向上する。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Hate Content Detection via Novel Pre-Processing Sequencing and Ensemble Methods [15.647035299476894]
ソーシャルメディア、特にTwitterは、トロールやヘイトスピーチといったインシデントが大幅に増加した。
本稿では,ウェブ上のヘイトコンテンツを抑制するための計算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-08T15:32:17Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z) - Towards Neural Diarization for Unlimited Numbers of Speakers Using
Global and Local Attractors [51.01295414889487]
本稿では,アトラクタをベースとしたエンドツーエンドダイアリゼーションに,教師なしクラスタリングプロセスを導入する。
提案手法はCALLHOME, DIHARD II, DIHARD IIIデータセットで11.84 %, 28.33 %, 19.49 %を達成した。
論文 参考訳(メタデータ) (2021-07-04T05:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。