論文の概要: Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning
- arxiv url: http://arxiv.org/abs/2210.14977v1
- Date: Wed, 26 Oct 2022 18:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:31:57.357527
- Title: Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning
- Title(参考訳): ニューラル構造学習を用いたオンデバイス音声感情認識のための知識伝達
- Authors: Yi Chang, Zhao Ren, Thanh Tam Nguyen, Kun Qian, Bj\"orn W. Schuller
- Abstract要約: 音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
本稿では,合成グラフ構築によるニューラルネットワーク学習フレームワークを提案する。
実験により、ターゲットデータセット上の軽量SERモデルを音声サンプルとグラフでトレーニングすることで、小さなSERモデルを生成するだけでなく、音声サンプルのみのモデルよりもモデル性能を向上させることができることが示された。
- 参考スコア(独自算出の注目度): 19.220263739291685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) has been a popular research topic in
human-computer interaction (HCI). As edge devices are rapidly springing up,
applying SER to edge devices is promising for a huge number of HCI
applications. Although deep learning has been investigated to improve the
performance of SER by training complex models, the memory space and
computational capability of edge devices represents a constraint for embedding
deep learning models. We propose a neural structured learning (NSL) framework
through building synthesized graphs. An SER model is trained on a source
dataset and used to build graphs on a target dataset. A lightweight model is
then trained with the speech samples and graphs together as the input. Our
experiments demonstrate that training a lightweight SER model on the target
dataset with speech samples and graphs can not only produce small SER models,
but also enhance the model performance over models with speech samples only.
- Abstract(参考訳): 音声感情認識(SER)は、ヒューマンコンピュータインタラクション(HCI)において人気のある研究トピックである。
エッジデバイスは急速に跳躍しているため、エッジデバイスにSERを適用することは、多数のHCIアプリケーションに期待できる。
複雑なモデルの学習によってSERの性能を向上させるためにディープラーニングが研究されているが、エッジデバイスのメモリ空間と計算能力は、ディープラーニングモデルを組み込むための制約を表している。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
SERモデルはソースデータセットに基づいてトレーニングされ、ターゲットデータセット上にグラフを構築するために使用される。
軽量モデルは入力として音声サンプルとグラフを併用して訓練される。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,音声サンプルのみを用いたモデルよりもモデル性能を向上させることができることがわかった。
関連論文リスト
- Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - On the Steganographic Capacity of Selected Learning Models [1.0640226829362012]
本稿では,学習モデルの聴取能力について考察する。
幅広いモデルに対して、上書き可能な低次ビットの数を決定する。
テスト対象モデルのうち, LR実験では7.04KB, InceptionV3では44.74MBであった。
論文 参考訳(メタデータ) (2023-08-29T10:41:34Z) - LowDINO -- A Low Parameter Self Supervised Learning Model [0.0]
本研究は,小規模ネットワークが巨大ネットワークの特性を活用可能なニューラルネットワークアーキテクチャの設計の可能性を検討することを目的とする。
これまでの研究では、畳み込みニューラルネットワーク(ConvNet)を使用することで、固有の帰納バイアスが得られることが示されている。
パラメータの数を減らすために、MobileViTブロックを使用してアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2023-05-28T18:34:59Z) - X-TIME: An in-memory engine for accelerating machine learning on tabular
data with CAMs [19.086291506702413]
現代的なツリーベースの機械学習モデルは、構造化データから関連する情報を抽出する。
本研究では,新たな精度向上型アナログCAMを実装したアナログデジタルアーキテクチャを提案する。
16nm技術の単一チップで評価した結果、最先端のGPUと比較して119倍のレイテンシで9740倍のスループットを示した。
論文 参考訳(メタデータ) (2023-04-03T18:20:31Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - ESAI: Efficient Split Artificial Intelligence via Early Exiting Using
Neural Architecture Search [6.316693022958222]
ディープニューラルネットワークは、多くのコンピュータビジョン関連タスクにおいて、従来の機械学習アルゴリズムよりも優れています。
大部分のデバイスは、優れたディープラーニングモデルがサーバー上のデータを解析する責任を負う、クラウドコンピューティングの方法論を活用しています。
本稿では、クラウドとオンデバイスモデルの両方を活用可能な、IoTデバイスにデプロイするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T04:47:53Z) - BENDR: using transformers and a contrastive self-supervised learning
task to learn from massive amounts of EEG data [15.71234837305808]
言語モデリング(LM)の手法とアーキテクチャを脳波モデリング(EM)に適用する方法を検討する。
1つの事前学習モデルが、異なるハードウェアで記録された全く新しい生の脳波シーケンスをモデル化できることがわかった。
このモデルの内部表現とアーキテクチャ全体は、さまざまな下流のBCIおよびEEG分類タスクに微調整することができる。
論文 参考訳(メタデータ) (2021-01-28T14:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。