論文の概要: A Deep Learning Approach for Low-Latency Packet Loss Concealment of
Audio Signals in Networked Music Performance Applications
- arxiv url: http://arxiv.org/abs/2007.07132v1
- Date: Tue, 14 Jul 2020 15:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:34:29.408234
- Title: A Deep Learning Approach for Low-Latency Packet Loss Concealment of
Audio Signals in Networked Music Performance Applications
- Title(参考訳): ネットワーク音楽演奏アプリケーションにおける音声信号の低遅延パケット損失隠蔽のためのディープラーニング手法
- Authors: Prateek Verma, Alessandro Ilic Mezza, Chris Chafe, Cristina Rottondi
- Abstract要約: Networked Music Performance (NMP)は、インターネットアプリケーションにおける潜在的なゲームチェンジャーとして想定されている。
本稿では,ディープ・ラーニング・アプローチを用いて,パケットの損失をリアルタイムで予測する手法について述べる。
- 参考スコア(独自算出の注目度): 66.56753488329096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Networked Music Performance (NMP) is envisioned as a potential game changer
among Internet applications: it aims at revolutionizing the traditional concept
of musical interaction by enabling remote musicians to interact and perform
together through a telecommunication network. Ensuring realistic conditions for
music performance, however, constitutes a significant engineering challenge due
to extremely strict requirements in terms of audio quality and, most
importantly, network delay. To minimize the end-to-end delay experienced by the
musicians, typical implementations of NMP applications use un-compressed,
bidirectional audio streams and leverage UDP as transport protocol. Being
connection less and unreliable,audio packets transmitted via UDP which become
lost in transit are not re-transmitted and thus cause glitches in the receiver
audio playout. This article describes a technique for predicting lost packet
content in real-time using a deep learning approach. The ability of concealing
errors in real time can help mitigate audio impairments caused by packet
losses, thus improving the quality of audio playout in real-world scenarios.
- Abstract(参考訳): Networked Music Performance (NMP)は、インターネットアプリケーションにおける潜在的なゲームチェンジャーとして構想されており、遠隔のミュージシャンが遠隔通信ネットワークを介して対話し、一緒に演奏できるようにすることによって、従来の音楽インタラクションの概念に革命をもたらすことを目的としている。
しかし、音楽演奏の現実的な条件を保証することは、音質やネットワークの遅延といった極めて厳しい要件のため、重要なエンジニアリング上の課題となっている。
ミュージシャンが経験したエンドツーエンドの遅延を最小限に抑えるため、NMPアプリケーションの典型的な実装では、圧縮されていない双方向オーディオストリームを使用し、UDPをトランスポートプロトコルとして利用する。
接続が小さく信頼性の低いため、UDP経由で送信されるオーディオパケットは再送信されず、レシーバのオーディオ再生に不具合が発生する。
本稿では,深層学習手法を用いてパケットの損失をリアルタイムで予測する手法について述べる。
エラーをリアルタイムで隠蔽する能力は、パケット損失によるオーディオ障害の軽減に役立ち、現実世界のシナリオにおけるオーディオプレイアウトの品質を向上させる。
関連論文リスト
- FM Tone Transfer with Envelope Learning [8.771755521263811]
トーントランスファー(トーントランスファー)は、音源をシンセサイザーで対向させ、音楽の形式を保ちながら音の音色を変換する新しい技法である。
音の多様性の低さや、過渡的および動的レンダリングの制限に関連するいくつかの欠点があり、リアルタイムなパフォーマンスの文脈における調音やフレーズ化の可能性を妨げていると我々は信じている。
論文 参考訳(メタデータ) (2023-10-07T14:03:25Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - End-to-End Neural Audio Coding for Real-Time Communications [22.699018098484707]
本稿では、リアルタイム通信(RTC)のための低レイテンシでエンドツーエンドのニューラルオーディオシステムTFNetを提案する。
短期的および長期的両方の時間的依存関係をキャプチャするために,時間的フィルタリングのためのインターリーブ構造を提案する。
エンドツーエンドの最適化により、TFNetは音声強調とパケットロスの隠蔽を共同で最適化し、3つのタスクに1対1のネットワークを提供する。
論文 参考訳(メタデータ) (2022-01-24T03:06:30Z) - Accelerating Federated Edge Learning via Optimized Probabilistic Device
Scheduling [57.271494741212166]
本稿では,通信時間最小化問題を定式化し,解決する。
最適化されたポリシーは、トレーニングプロセスが進むにつれて、残りの通信ラウンドの抑制から、ラウンドごとのレイテンシの低減へと、徐々に優先順位を転換している。
提案手法の有効性は,自律運転における協調的3次元目標検出のユースケースを通じて実証される。
論文 参考訳(メタデータ) (2021-07-24T11:39:17Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Dynamic Compression Ratio Selection for Edge Inference Systems with Hard
Deadlines [9.585931043664363]
本稿では,ハード期限付きエッジ推論システムの動的圧縮比選択手法を提案する。
誤り推論により少ない圧縮データを再送信する情報拡張を提案し,精度向上を図る。
無線伝送エラーを考慮し、パケット損失による性能劣化を低減する再送信方式を更に設計する。
論文 参考訳(メタデータ) (2020-05-25T17:11:53Z) - ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in
Deep Speech Emotion Recognition [0.0]
パケット損失は、音声データ伝送を含むデータ伝送において一般的な問題である。
本稿では,重畳されたリカレント・ニューラルセルで使用可能な隠蔽ラッパーを提案する。
提案したConcealNetモデルは、音声再構成とそれに対応する感情予測の両方において、かなり改善されている。
論文 参考訳(メタデータ) (2020-05-15T20:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。