論文の概要: Transformer Redesign for Late Fusion of Audio-Text Features on Ultra-Low-Power Edge Hardware
- arxiv url: http://arxiv.org/abs/2510.18036v1
- Date: Mon, 20 Oct 2025 19:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.532278
- Title: Transformer Redesign for Late Fusion of Audio-Text Features on Ultra-Low-Power Edge Hardware
- Title(参考訳): 超低消費電力エッジハードウェアにおけるオーディオテキスト機能の後期融合のためのトランスフォーマー設計
- Authors: Stavros Mitsis, Ermos Hadjikyriakos, Humaid Ibrahim, Savvas Neofytou, Shashwat Raman, James Myles, Eiman Kanjo,
- Abstract要約: マルチモーダル感情認識はディープラーニングを通じて進歩してきたが、ほとんどのシステムは超制約エッジデバイスへの展開には適していない。
本稿では,エッジTPUに最適化したレイトフュージョンアーキテクチャを用いて,音響的特徴と言語的特徴を組み合わせたハードウェア対応感情認識システムを提案する。
- 参考スコア(独自算出の注目度): 0.4104352271917982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying emotion recognition systems in real-world environments where devices must be small, low-power, and private remains a significant challenge. This is especially relevant for applications such as tension monitoring, conflict de-escalation, and responsive wearables, where cloud-based solutions are impractical. Multimodal emotion recognition has advanced through deep learning, but most systems remain unsuitable for deployment on ultra-constrained edge devices. Prior work typically relies on powerful hardware, lacks real-time performance, or uses unimodal input. This paper addresses that gap by presenting a hardware-aware emotion recognition system that combines acoustic and linguistic features using a late-fusion architecture optimised for Edge TPU. The design integrates a quantised transformer-based acoustic model with frozen keyword embeddings from a DSResNet-SE network, enabling real-time inference within a 1.8MB memory budget and 21-23ms latency. The pipeline ensures spectrogram alignment between training and deployment using MicroFrontend and MLTK. Evaluation on re-recorded, segmented IEMOCAP samples captured through the Coral Dev Board Micro microphone shows a 6.3% macro F1 improvement over unimodal baselines. This work demonstrates that accurate, real-time multimodal emotion inference is achievable on microcontroller-class edge platforms through task-specific fusion and hardware-guided model design.
- Abstract(参考訳): デバイスが小さく、低電力で、プライベートでなければならない現実の環境で感情認識システムを展開することは、依然として大きな課題である。
これは特に、クラウドベースのソリューションが実用的でない、テンション監視、コンフリクトデエスカレーション、レスポンシブウェアラブルといったアプリケーションに関係している。
マルチモーダル感情認識はディープラーニングを通じて進歩してきたが、ほとんどのシステムは超制約エッジデバイスへの展開には適していない。
以前の作業は通常、強力なハードウェアに依存し、リアルタイム性能に欠ける。
本稿では,Edge TPUに最適化されたレイトフュージョンアーキテクチャを用いて,音響的特徴と言語的特徴を組み合わせたハードウェア対応感情認識システムを提案することにより,そのギャップを解消する。
この設計は、量子トランスフォーマーベースの音響モデルとDSResNet-SEネットワークからのフリーズキーワード埋め込みを統合し、1.8MBのメモリ予算と21-23msのレイテンシでリアルタイムの推論を可能にする。
このパイプラインは、MicroFrontendとMLTKを使用して、トレーニングとデプロイメントの間のスペクトログラムアライメントを保証する。
Coral Dev Board Microマイクロマイクで記録された再記録されたIEMOCAPサンプルの評価では、単調なベースラインよりも6.3%のマクロF1が改善されている。
この研究は、タスク固有の融合とハードウェア誘導モデル設計を通じて、マイクロコントローラクラスのエッジプラットフォーム上で、正確なリアルタイムマルチモーダル感情推定が達成可能であることを示す。
関連論文リスト
- Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - Designing Practical Models for Isolated Word Visual Speech Recognition [9.502316537342372]
視覚音声認識(VSR)システムは、ビデオデータのみを使用して、入力シーケンスから音声をデコードする。
このようなシステムの実用化には、医療支援や人間と機械の相互作用が含まれる。
画像分類文献からまず効率的なモデルを作成し、その後、時間的畳み込みネットワークのバックボーンに軽量ブロック設計を採用することで、軽量なエンドツーエンドアーキテクチャを開発する。
論文 参考訳(メタデータ) (2025-08-25T11:04:36Z) - Real-Time Emergency Vehicle Siren Detection with Efficient CNNs on Embedded Hardware [0.26249027950824516]
組込みハードウェア上でのリアルタイム展開を目的としたフルスタック緊急車両サイレン検出システムを提案する。
提案手法はEPANNから派生した微細調整された畳み込みニューラルネットワークであるE2PANNsに基づいている。
リモートWebSocketインターフェースはリアルタイム監視を提供し、ライブデモ機能を容易にする。
論文 参考訳(メタデータ) (2025-07-02T10:27:41Z) - SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。
本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。
ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文 参考訳(メタデータ) (2025-02-01T04:18:06Z) - Turbocharge Speech Understanding with Pilot Inference [0.9699101045941684]
本稿では,資源制約のあるエッジデバイス上での現代音声理解の促進を図る。
デバイス上での実行をスピードアップする、デバイス容量を超える入力をオフロードする、というハイブリッドなアプローチが必要です。
プロトタイプはPASUと呼ばれ、Armプラットフォーム上で6~8コアでテストされており、SOTAの精度が得られます。
論文 参考訳(メタデータ) (2023-11-22T17:14:18Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。