論文の概要: Speaker Diaphragm Excursion Prediction: deep attention and online
adaptation
- arxiv url: http://arxiv.org/abs/2305.06640v1
- Date: Thu, 11 May 2023 08:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:29:08.708427
- Title: Speaker Diaphragm Excursion Prediction: deep attention and online
adaptation
- Title(参考訳): 話者ダイアフラム発生予測 : 深い注意とオンライン適応
- Authors: Yuwei Ren, Matt Zivney, Yin Huang, Eddie Choy, Chirag Patel and Hao Xu
- Abstract要約: 本稿では,非線形探索を正確にモデル化し,予測するための効率的なDLソリューションを提案する。
提案アルゴリズムは2つの話者と3つの典型的な展開シナリオで検証され、残留DCの$99%は0.1mm未満である。
- 参考スコア(独自算出の注目度): 2.8349018797311314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker protection algorithm is to leverage the playback signal properties to
prevent over excursion while maintaining maximum loudness, especially for the
mobile phone with tiny loudspeakers. This paper proposes efficient DL solutions
to accurately model and predict the nonlinear excursion, which is challenging
for conventional solutions. Firstly, we build the experiment and pre-processing
pipeline, where the feedback current and voltage are sampled as input, and
laser is employed to measure the excursion as ground truth. Secondly, one
FFTNet model is proposed to explore the dominant low-frequency and other
unknown harmonics, and compares to a baseline ConvNet model. In addition, BN
re-estimation is designed to explore the online adaptation; and INT8
quantization based on AI Model efficiency toolkit (AIMET\footnote{AIMET is a
product of Qualcomm Innovation Center, Inc.}) is applied to further reduce the
complexity. The proposed algorithm is verified in two speakers and 3 typical
deployment scenarios, and $>$99\% residual DC is less than 0.1 mm, much better
than traditional solutions.
- Abstract(参考訳): 話者保護アルゴリズムは、再生信号特性を利用して、最大ラウドネスを維持しながら、特に小さなスピーカーを持つ携帯電話において、過剰な再帰を防止する。
本稿では,従来の手法では難しい非線形探索を正確にモデル化し,予測するための効率的なDLソリューションを提案する。
まず, フィードバック電流と電圧を入力としてサンプリングした実験と前処理パイプラインを構築し, 再帰を基底的真理としてレーザーを用いて測定する。
第二に、支配的な低周波や他の未知の高調波を探索するためにFFTNetモデルを提案し、ベースラインのConvNetモデルと比較する。
INT8量子化はAIモデル効率ツールキット(AIMET\footnote{AIMET)に基づくもので、Qualcomm Innovation Center, Inc.の製品である。
})は複雑さをさらに軽減するために適用される。
提案アルゴリズムは2つの話者と3つの典型的な展開シナリオで検証され, 残留DCの$=99\%は0.1mm未満であり, 従来のソリューションよりもはるかに優れている。
関連論文リスト
- SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning [49.83621156017321]
SimBaは、単純さのバイアスを注入することによって、深いRLでパラメータをスケールアップするように設計されたアーキテクチャである。
SimBaでパラメータをスケールアップすることで、オフポリシー、オンポリシー、アン教師なしメソッドを含む様々なディープRLアルゴリズムのサンプル効率が一貫して改善される。
論文 参考訳(メタデータ) (2024-10-13T07:20:53Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Two-stage Deep Reinforcement Learning for Inverter-based Volt-VAR
Control in Active Distribution Networks [3.260913246106564]
本稿では,インバータを用いたエネルギー資源の制御により,電圧分布を改善するための2段階深部強化学習法を提案する。
オフライン段階では、モデルミスマッチに頑健なオフラインエージェントを訓練するために、高い効率の対向強化学習アルゴリズムが開発された。
連続的なオンライン段階において、オフラインエージェントをオンラインエージェントとして安全に転送し、継続的な学習を行い、オンラインで制御し、安全性と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-05-20T08:02:13Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - NPLDA: A Deep Neural PLDA Model for Speaker Verification [40.842070706362534]
話者認識におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
提案モデルはニューラルPLDA(NPLDA)と呼ばれ,生成PLDAモデルパラメータを用いて最適化される。
実験では,提案した損失関数を用いて最適化されたNPLDAモデルは,最先端のPLDAベース話者検証システムよりも大幅に改善される。
論文 参考訳(メタデータ) (2020-02-10T05:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。