論文の概要: Neural Speech and Audio Coding
- arxiv url: http://arxiv.org/abs/2408.06954v1
- Date: Tue, 13 Aug 2024 15:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:06:48.943227
- Title: Neural Speech and Audio Coding
- Title(参考訳): ニューラル音声と音声符号化
- Authors: Minje Kim, Jan Skoglund,
- Abstract要約: 本稿では,ニューラル音声および音声符号化システムの領域におけるモデルベースおよびデータ駆動型アプローチの統合について検討する。
既存のコーデックの出力を後処理するように設計されたニューラルネットワークベースの信号エンハンサーを導入している。
本稿では、精神音響学的に校正された損失関数を用いて、エンドツーエンドのニューラルオーディオコーデックを訓練する方法について検討する。
- 参考スコア(独自算出の注目度): 19.437080345021105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the integration of model-based and data-driven approaches within the realm of neural speech and audio coding systems. It highlights the challenges posed by the subjective evaluation processes of speech and audio codecs and discusses the limitations of purely data-driven approaches, which often require inefficiently large architectures to match the performance of model-based methods. The study presents hybrid systems as a viable solution, offering significant improvements to the performance of conventional codecs through meticulously chosen design enhancements. Specifically, it introduces a neural network-based signal enhancer designed to post-process existing codecs' output, along with the autoencoder-based end-to-end models and LPCNet--hybrid systems that combine linear predictive coding (LPC) with neural networks. Furthermore, the paper delves into predictive models operating within custom feature spaces (TF-Codec) or predefined transform domains (MDCTNet) and examines the use of psychoacoustically calibrated loss functions to train end-to-end neural audio codecs. Through these investigations, the paper demonstrates the potential of hybrid systems to advance the field of speech and audio coding by bridging the gap between traditional model-based approaches and modern data-driven techniques.
- Abstract(参考訳): 本稿では,ニューラル音声および音声符号化システムの領域におけるモデルベースおよびデータ駆動型アプローチの統合について検討する。
これは、音声と音声コーデックの主観的評価プロセスがもたらす課題を強調し、モデルベースの手法の性能に匹敵する非効率なアーキテクチャを必要とする純粋にデータ駆動アプローチの限界について議論する。
提案するハイブリッドシステムは,厳密に選択された設計の強化を通じて,従来のコーデックの性能を大幅に向上する。
具体的には、既存のコーデックの出力を後処理するように設計されたニューラルネットワークベースの信号エンハンサーと、線形予測符号化(LPC)とニューラルネットワークを組み合わせたオートエンコーダベースのエンドツーエンドモデルとLPCNetハイブリッドシステムを導入する。
さらに, カスタム特徴空間 (TF-Codec) や事前定義された変換領域 (MDCTNet) 内で動作する予測モデルについて検討し, エンドツーエンドのニューラルオーディオコーデックを訓練するために, 精神音響学的に校正された損失関数を用いて検討した。
これらの研究を通じて,従来のモデルベースアプローチと現代データ駆動手法のギャップを埋めることで,ハイブリッドシステムによる音声と音声の符号化の分野を前進させる可能性を示す。
関連論文リスト
- Quantum-Trained Convolutional Neural Network for Deepfake Audio Detection [3.2927352068925444]
ディープフェイク技術は プライバシー セキュリティ 情報整合性に 課題をもたらす
本稿では,ディープフェイク音声の検出を強化するために,量子学習型畳み込みニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T20:52:10Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Erasure Coded Neural Network Inference via Fisher Averaging [28.243239815823205]
消去符号化コンピューティングは、サーバのストラグリングや異種トラフィックの変動といった要因によって引き起こされるテールレイテンシを低減するために、クラウドシステムで成功している。
我々は、2つ以上のニューラルネットワークモデルに対して、与えられたニューラルネットワークの出力の線形結合である符号付きモデルを構築する方法を設計する。
実世界のビジョンデータセットに基づいてトレーニングされたニューラルネットワーク上で消去符号化を行う実験を行い、COINを用いた復号出力の精度は他のベースラインよりも著しく高いことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:46:26Z) - Neural Harmonium: An Interpretable Deep Structure for Nonlinear Dynamic
System Identification with Application to Audio Processing [4.599180419117645]
解釈可能性(Interpretability)は、モデルを一般化し、その限界を明らかにする能力を理解するのに役立ちます。
本稿では,動的システムモデリングのための因果解釈可能な深部構造を提案する。
提案モデルは,時間周波数領域におけるシステムモデリングによる調和解析を利用する。
論文 参考訳(メタデータ) (2023-10-10T21:32:15Z) - Channelformer: Attention based Neural Solution for Wireless Channel
Estimation and Effective Online Training [1.0499453838486013]
本稿では,改良されたチャネル推定を実現するために,エンコーダ・デコーダニューラルアーキテクチャ(Channelformer)を提案する。
我々は,復号器として,エンコーダと残差畳み込みニューラルアーキテクチャに多面的注意を払っている。
また,現代通信システムにおける第5世代(5G)新しい無線(NR)構成に基づく効果的なオンライントレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T23:18:23Z) - Ultrasound Signal Processing: From Models to Deep Learning [64.56774869055826]
医用超音波画像は、信頼性と解釈可能な画像再構成を提供するために、高品質な信号処理に大きく依存している。
データ駆動方式で最適化されたディープラーニングベースの手法が人気を集めている。
比較的新しいパラダイムは、データ駆動型ディープラーニングの活用とドメイン知識の活用という2つのパワーを組み合わせたものだ。
論文 参考訳(メタデータ) (2022-04-09T13:04:36Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Learn to Communicate with Neural Calibration: Scalability and
Generalization [10.775558382613077]
本稿では,将来の無線システム設計のためのスケーラブルで一般化可能なニューラルネットワークキャリブレーションフレームワークを提案する。
提案するニューラルキャリブレーションフレームワークは,大規模マルチインプットマルチアウトプット(MIMO)システムにおける資源管理の課題を解決するために応用される。
論文 参考訳(メタデータ) (2021-10-01T09:00:25Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Supervised DKRC with Images for Offline System Identification [77.34726150561087]
現代の力学系はますます非線形で複雑なものになりつつある。
予測と制御のためのコンパクトで包括的な表現でこれらのシステムをモデル化するフレームワークが必要である。
本手法は,教師付き学習手法を用いてこれらの基礎関数を学習する。
論文 参考訳(メタデータ) (2021-09-06T04:39:06Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。