論文の概要: Knowledge Distillation for Real-Time Classification of Early Media in Voice Communications
- arxiv url: http://arxiv.org/abs/2410.21478v1
- Date: Mon, 28 Oct 2024 19:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:15.367394
- Title: Knowledge Distillation for Real-Time Classification of Early Media in Voice Communications
- Title(参考訳): 音声通信における早期メディアのリアルタイム分類のための知識蒸留
- Authors: Kemal Altwlkany, Hadžem Hadžić, Amar Kurić, Emanuel Lacic,
- Abstract要約: 本稿では,勾配木に基づく低リソース要求に対する新しいアプローチを提案する。
本稿では,知識蒸留とクラス集約技術を活用して,音声通話における早期メディアの分類を促進することを明らかにする。
- 参考スコア(独自算出の注目度): 0.13124513975412253
- License:
- Abstract: This paper investigates the industrial setting of real-time classification of early media exchanged during the initialization phase of voice calls. We explore the application of state-of-the-art audio tagging models and highlight some limitations when applied to the classification of early media. While most existing approaches leverage convolutional neural networks, we propose a novel approach for low-resource requirements based on gradient-boosted trees. Our approach not only demonstrates a substantial improvement in runtime performance, but also exhibits a comparable accuracy. We show that leveraging knowledge distillation and class aggregation techniques to train a simpler and smaller model accelerates the classification of early media in voice calls. We provide a detailed analysis of the results on a proprietary and publicly available dataset, regarding accuracy and runtime performance. We additionally report a case study of the achieved performance improvements at a regional data center in India.
- Abstract(参考訳): 本稿では,音声通話の初期化段階で交換された早期メディアのリアルタイム分類の産業的設定について検討する。
我々は最先端のオーディオタグモデルの適用について検討し、早期メディアの分類に適用した場合のいくつかの制限を強調した。
既存のほとんどのアプローチは畳み込みニューラルネットワークを利用するが、勾配木に基づく低リソース要求に対する新しいアプローチを提案する。
このアプローチは実行時のパフォーマンスを大幅に改善するだけでなく、同等の精度を示します。
本稿では,知識蒸留とクラス集約技術を活用して,音声通話における早期メディアの分類を促進することを明らかにする。
我々は、精度と実行時のパフォーマンスに関して、プロプライエタリでパブリックなデータセットで結果を詳細に分析する。
また、インドの地域データセンターで達成されたパフォーマンス改善のケーススタディを報告する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Multivariate Time Series Early Classification Across Channel and Time
Dimensions [3.5786621294068373]
より柔軟な早期分類パイプラインを提案し、入力チャネルをより細かく検討する。
提案手法は,等価な入力利用のための精度の向上を図り,早期分類のパラダイムを向上することができる。
論文 参考訳(メタデータ) (2023-06-26T11:30:33Z) - DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes [16.96483269023065]
生涯音声の特徴抽出は、新しい音のクラスを漸進的に学習する。
新しいデータにのみモデルを最適化することは、これまで学習されたタスクを壊滅的に忘れてしまう可能性がある。
本稿では,DeCoRと呼ばれる連続的な音声表現学習における新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:25:03Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Low-resource Accent Classification in Geographically-proximate Settings:
A Forensic and Sociophonetics Perspective [8.002498051045228]
アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。
近年の深層学習法とトランスフォーマーを用いた事前学習モデルは,両領域で高い性能を達成している。
そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせについて検討した。
論文 参考訳(メタデータ) (2022-06-26T01:25:17Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。