論文の概要: Active Restoration of Lost Audio Signals Using Machine Learning and
Latent Information
- arxiv url: http://arxiv.org/abs/2111.10891v4
- Date: Thu, 18 Jan 2024 22:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:51:12.999331
- Title: Active Restoration of Lost Audio Signals Using Machine Learning and
Latent Information
- Title(参考訳): 機械学習と潜時情報を用いた損失音声信号のアクティブ復元
- Authors: Zohra Adila Cheddad, Abbas Cheddad
- Abstract要約: 本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端の浅層・深層学習法の組み合わせを提案する。
本研究では,信号対雑音比(SNR),目標差次数(ODG),およびハンセンの音質測定値を用いて,塗装性能の向上を示す。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital audio signal reconstruction of a lost or corrupt segment using deep
learning algorithms has been explored intensively in recent years.
Nevertheless, prior traditional methods with linear interpolation, phase coding
and tone insertion techniques are still in vogue. However, we found no research
work on reconstructing audio signals with the fusion of dithering,
steganography, and machine learning regressors. Therefore, this paper proposes
the combination of steganography, halftoning (dithering), and state-of-the-art
shallow and deep learning methods. The results (including comparing the SPAIN,
Autoregressive, deep learning-based, graph-based, and other methods) are
evaluated with three different metrics. The observations from the results show
that the proposed solution is effective and can enhance the reconstruction of
audio signals performed by the side information (e.g., Latent representation)
steganography provides. Moreover, this paper proposes a novel framework for
reconstruction from heavily compressed embedded audio data using halftoning
(i.e., dithering) and machine learning, which we termed the HCR (halftone-based
compression and reconstruction). This work may trigger interest in optimising
this approach and/or transferring it to different domains (i.e., image
reconstruction). Compared to existing methods, we show improvement in the
inpainting performance in terms of signal-to-noise ratio (SNR), the objective
difference grade (ODG) and Hansen's audio quality metric. In particular, our
proposed framework outperformed the learning-based methods (D2WGAN and SG) and
the traditional statistical algorithms (e.g., SPAIN, TDC, WCP).
- Abstract(参考訳): 近年,ディープラーニングアルゴリズムを用いた失われたセグメントのディジタル音声信号再構成が盛んに研究されている。
それでも、線形補間、位相符号化、トーン挿入といった従来の手法はまだ流行している。
しかし, ディザリング, ステガノグラフィ, 機械学習回帰器の融合による音声信号の再構成に関する研究は行われなかった。
そこで本稿では,ステガノグラフィ,ハーフトニング(ディザリング),最先端の浅層深層学習法の組み合わせを提案する。
結果(スペイン、自己回帰型、ディープラーニングベース、グラフベース、その他の方法の比較を含む)は、3つの異なる指標で評価される。
その結果,提案手法は有効であり,側情報(例えば潜在表現)ステガノグラフィが提供する音声信号の再構成が促進されることがわかった。
さらに,HCR (halftone-based compression and reconstruction) と呼ぶハーフトニング(ディザリング)と機械学習を用いて,強圧縮された組込み音声データから再構成する新しい枠組みを提案する。
この作業はこのアプローチの最適化や異なるドメイン(つまり画像再構成)への転送に関心を惹きつけるかもしれない。
従来の手法と比較して,信号対雑音比 (SNR) や目標差度 (ODG) , ハンセンの音質測定値などを用いて, 塗装性能の向上を示す。
特に,提案手法は,学習に基づく手法(D2WGAN,SG)と従来の統計アルゴリズム(SPAIN,TDC,WCP)より優れていた。
関連論文リスト
- Model and Deep learning based Dynamic Range Compression Inversion [12.002024727237837]
DRCの反転は、元のダイナミクスを復元し、新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのに役立つ。
DRCインバージョンのためのニューラルネットワークを用いたモデルベースアプローチを提案する。
その結果,提案手法の有効性とロバスト性について,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2024-11-07T00:33:07Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - WNet: A data-driven dual-domain denoising model for sparse-view computed
tomography with a trainable reconstruction layer [3.832032989515628]
スパース・ビュー・アーティファクト・デノナイズのためのトレーニング可能な再構成層を含むデータ駆動型デュアルドメイン・デノナイズ・モデルWNetを提案する。
我々は2つの臨床的に関連のあるデータセットを用いてネットワークをトレーニングし、その結果を3種類のスパースビューCTと再構成アルゴリズムと比較した。
論文 参考訳(メタデータ) (2022-07-01T13:17:01Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - A SAR speckle filter based on Residual Convolutional Neural Networks [68.8204255655161]
本研究では,Convolutional Neural Networks(CNN)に基づく深層学習(DL)アルゴリズムを用いて,Sentinel-1データからスペックルノイズをフィルタリングする新しい手法を提案する。
得られた結果は、技術の現状と比較すると、ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)の点で明確な改善を示しています。
論文 参考訳(メタデータ) (2021-04-19T14:43:07Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Orthogonal Features Based EEG Signals Denoising Using Fractional and
Compressed One-Dimensional CNN AutoEncoder [3.8580784887142774]
本稿では脳波(EEG)信号の分数的1次元畳み込みニューラルネットワーク(CNN)オートエンコーダを提案する。
脳波信号は、主に筋肉アーチファクト(MA)によって、記録過程中にしばしばノイズによって汚染される。
論文 参考訳(メタデータ) (2021-04-16T13:58:05Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - RAR-U-Net: a Residual Encoder to Attention Decoder by Residual
Connections Framework for Spine Segmentation under Noisy Labels [9.81466618834274]
本稿では,ノイズラベルに基づく医用画像分割手法を提案する。
この方法は4つの新しいコントリビューションを取り入れ、ディープラーニングパラダイムの下で機能する。
実験結果は,脊椎CTのベンチマークデータベース上で公開されている。
論文 参考訳(メタデータ) (2020-09-27T15:32:50Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。