論文の概要: Aalto's End-to-End DNN systems for the INTERSPEECH 2020 Computational
Paralinguistics Challenge
- arxiv url: http://arxiv.org/abs/2008.02689v1
- Date: Thu, 6 Aug 2020 14:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 08:04:04.852486
- Title: Aalto's End-to-End DNN systems for the INTERSPEECH 2020 Computational
Paralinguistics Challenge
- Title(参考訳): Aalto's End-to-End DNN Systems for the InterSPEECH 2020 Computational Paralinguistics Challenge
- Authors: Tam\'as Gr\'osz, Mittul Singh, Sudarsana Reddy Kadiri, Hemant
Kathania, Mikko Kurimo
- Abstract要約: エンドツーエンドニューラルネットワークモデル(E2E)は、異なるInterSPEECH ComParEタスクに対して大きなパフォーマンス上のメリットを示している。
本研究では,E2Eモデルのアンサンブルをロバストな性能に適用し,各タスクに対するタスク固有の修正を開発する。
- 参考スコア(独自算出の注目度): 22.25611331570492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end neural network models (E2E) have shown significant performance
benefits on different INTERSPEECH ComParE tasks. Prior work has applied either
a single instance of an E2E model for a task or the same E2E architecture for
different tasks. However, applying a single model is unstable or using the same
architecture under-utilizes task-specific information. On ComParE 2020 tasks,
we investigate applying an ensemble of E2E models for robust performance and
developing task-specific modifications for each task. ComParE 2020 introduces
three sub-challenges: the breathing sub-challenge to predict the output of a
respiratory belt worn by a patient while speaking, the elderly sub-challenge to
estimate the elderly speaker's arousal and valence levels and the mask
sub-challenge to classify if the speaker is wearing a mask or not. On each of
these tasks, an ensemble outperforms the single E2E model. On the breathing
sub-challenge, we study the impact of multi-loss strategies on task
performance. On the elderly sub-challenge, predicting the valence and arousal
levels prompts us to investigate multi-task training and implement data
sampling strategies to handle class imbalance. On the mask sub-challenge, using
an E2E system without feature engineering is competitive to feature-engineered
baselines and provides substantial gains when combined with feature-engineered
baselines.
- Abstract(参考訳): エンドツーエンドニューラルネットワークモデル(E2E)は、異なるInterSPEECH ComParEタスクに対して大きなパフォーマンス上のメリットを示している。
以前の作業では、タスクのE2Eモデルの単一インスタンスか、異なるタスクのE2Eアーキテクチャが適用されていた。
しかし、単一モデルの適用は不安定であり、同じアーキテクチャを使うことはタスク固有の情報を利用しない。
我々は,ComParE 2020タスクにおいて,頑健なパフォーマンスを実現するためにE2Eモデルのアンサンブルを適用し,各タスクに対するタスク固有の修正を開発する。
ComParE 2020では、患者が会話中に着用する呼吸ベルトの出力を予測する呼吸サブカレンジ、高齢のスピーカーの覚醒度と価度を推定する高齢者サブカレンジ、マスクサブカレンジの3つのサブカレンジを導入し、スピーカーがマスクを着用しているかどうかを分類する。
それぞれのタスクにおいて、アンサンブルは単一のE2Eモデルより優れている。
呼吸サブキャレンジについて,マルチロス戦略がタスク性能に与える影響について検討する。
高齢者のサブチャレンジでは,有病率と覚醒レベルを予測することにより,マルチタスクトレーニングの調査や,クラス不均衡を扱うためのデータサンプリング戦略の実施が促される。
マスクサブチャレンジでは、機能エンジニアリングなしでe2eシステムを使用することは、機能エンジニアリングベースラインと競合し、機能エンジニアリングベースラインと組み合わせるとかなりの利益をもたらす。
関連論文リスト
- EEGMamba: Bidirectional State Space Model with Mixture of Experts for EEG Multi-task Classification [1.4004287903552533]
脳波アプリケーションのためのマルチタスク学習を真に実装した最初のユニバーサル脳波分類ネットワークであるEEGMambaを紹介する。
EEGMambaは、Spatio-Temporal-Adaptive (ST-Adaptive)モジュール、双方向のMamba、Mixture of Experts (MoE)をシームレスに統合したフレームワークに統合する。
本研究では,8つの公用EEGデータセットを用いてモデルの評価を行い,その性能を4種類のタスクで実証した。
論文 参考訳(メタデータ) (2024-07-20T11:15:47Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - End-to-End Speech to Intent Prediction to improve E-commerce Customer
Support Voicebot in Hindi and English [0.0]
本稿では、カスタマーサポート音声ボットタスクのためのエンドツーエンド(E2E)S2Iモデルをバイリンガル環境で論じる。
本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 少量の注釈付きデータセットを微調整することで, E2Eの意図分類を解く方法について述べる。
論文 参考訳(メタデータ) (2022-10-26T18:29:44Z) - The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022 [15.453882034529913]
本稿では,Far-Field Speaker Verification Challenge 2022(FFSVC2022)に提出された話者検証システムについて述べる。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャは、この挑戦のために開発された。
このアプローチは優れたパフォーマンスをもたらし、両方の課題において第1位にランクインします。
論文 参考訳(メタデータ) (2022-09-23T14:51:55Z) - E2-AEN: End-to-End Incremental Learning with Adaptively Expandable
Network [57.87240860624937]
本稿では,E2-AENという,エンドツーエンドのトレーニング可能な適応拡張可能なネットワークを提案する。
以前のタスクの精度を落とさずに、新しいタスクのための軽量な構造を動的に生成する。
E2-AENはコストを削減し、あらゆるフィードフォワードアーキテクチャをエンドツーエンドで構築できる。
論文 参考訳(メタデータ) (2022-07-14T09:04:51Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Meta-learning with an Adaptive Task Scheduler [93.63502984214918]
既存のメタ学習アルゴリズムは、一様確率でランダムにメタトレーニングタスクをサンプリングする。
タスクは、限られた数のメタトレーニングタスクを考えると、ノイズや不均衡に有害である可能性が高い。
メタトレーニングプロセスのための適応タスクスケジューラ(ATS)を提案する。
論文 参考訳(メタデータ) (2021-10-26T22:16:35Z) - Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust
Elderly Speech Emotion Recognition [7.579298439023323]
本稿では,InterSPEECH 2020 Computational Paralinguistics Challenge (ComParE) への貢献について述べる。
本稿では,これらのタスクを最先端の音響的特徴と言語的特徴を用いてモデル化するバイモーダル・フレームワークを提案する。
本研究では,タスク固有の辞書やリソースを活用すれば,言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-09-07T21:19:16Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。