論文の概要: Environmental sound analysis with mixup based multitask learning and
cross-task fusion
- arxiv url: http://arxiv.org/abs/2103.16079v1
- Date: Tue, 30 Mar 2021 05:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:33:39.212272
- Title: Environmental sound analysis with mixup based multitask learning and
cross-task fusion
- Title(参考訳): 混合型マルチタスク学習とクロスタスク融合による環境音響解析
- Authors: Weiping Zheng, Dacan Jiang, Gansen Zhao
- Abstract要約: 音響シーン分類と音響イベント分類は 密接に関連している2つの課題です
本書では,上記の課題に対して二段階法を提案する。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Environmental sound analysis is currently getting more and more attentions.
In the domain, acoustic scene classification and acoustic event classification
are two closely related tasks. In this letter, a two-stage method is proposed
for the above tasks. In the first stage, a mixup based MTL solution is proposed
to classify both tasks in one single convolutional neural network. Artificial
multi-label samples are used in the training of the MTL model, which are mixed
up using existing single-task datasets. The multi-task model obtained can
effectively recognize both the acoustic scenes and events. Compared with other
methods such as re-annotation or synthesis, the mixup based MTL is low-cost,
flexible and effective. In the second stage, the MTL model is modified into a
single-task model which is fine-tuned using the original dataset corresponding
to the specific task. By controlling the frozen layers carefully, the
task-specific high level features are fused and the performance of the single
classification task is further improved. The proposed method has confirmed the
complementary characteristics of acoustic scene and acoustic event
classifications. Finally, enhanced by ensemble learning, a satisfactory
accuracy of 84.5 percent on TUT acoustic scene 2017 dataset and an accuracy of
77.5 percent on ESC-50 dataset are achieved respectively.
- Abstract(参考訳): 環境音の分析は現在ますます注目を集めている。
この領域では、音響シーン分類と音響イベント分類が密接に関連している。
本書では,上記の課題に対して二段階法を提案する。
最初の段階では、両方のタスクを単一の畳み込みニューラルネットワークに分類するために、ミックスアップベースのMTLソリューションが提案されている。
人工マルチラベルサンプルは、既存のシングルタスクデータセットを使用して混在するMTLモデルのトレーニングに使用される。
得られたマルチタスクモデルは、音響シーンとイベントの両方を効果的に認識することができる。
再注釈や合成などの他の方法と比較して、ミックスアップベースのMTLは低コストで、柔軟で効果的である。
第2段階では、MTLモデルは、特定のタスクに対応する元のデータセットを使用して微調整されたシングルタスクモデルに修正される。
凍結層を慎重に制御することにより、タスク固有の高レベル特徴を融合させ、単一分類タスクの性能をさらに向上させる。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
最後に、アンサンブル学習により強化し、tut音響シーン2017データセットで84.5パーセント、esc-50データセットで77.5パーセントの精度をそれぞれ達成した。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Sequence-to-sequence models in peer-to-peer learning: A practical application [0.0]
本稿では,ピアツーピア学習環境における音声認識(ASR)タスクのLSTM単位に基づくシーケンス・ツー・シーケンス(Seq2Seq)モデルの適用性について検討する。
この結果は、分散環境でのSeq2Seqモデルの適用の可能性を示している。
論文 参考訳(メタデータ) (2024-05-02T14:44:06Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Adaptive Few-Shot Learning Algorithm for Rare Sound Event Detection [24.385226516231004]
そこで本研究では,メトリックベースの数ショット学習フレームワークに容易に組み込むことができる新しいタスク適応型モジュールを提案する。
我々のモジュールはベースライン法よりも2つのデータセットの性能をかなり改善します。
論文 参考訳(メタデータ) (2022-05-24T03:13:12Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Neural Task Success Classifiers for Robotic Manipulation from Few Real
Demonstrations [1.7205106391379026]
本稿では,いくつかの実演からのみタスク完了を分類する新しい分類器を提案する。
我々は、完全連結型、完全畳み込み型、シーケンス2配列型、ドメイン適応型など、異なるニューラル分類器を比較した。
我々のモデル、すなわちドメイン適応とタイミング特徴を備えた完全な畳み込みニューラルネットワークは、タスク間で平均的な分類精度97.3%と95.5%を達成する。
論文 参考訳(メタデータ) (2021-07-01T19:58:16Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。