論文の概要: ARMAS: Active Reconstruction of Missing Audio Segments
- arxiv url: http://arxiv.org/abs/2111.10891v1
- Date: Sun, 21 Nov 2021 20:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 17:28:01.673007
- Title: ARMAS: Active Reconstruction of Missing Audio Segments
- Title(参考訳): ARMAS:音声セグメントのアクティブな再構築
- Authors: Sachin, Pokharel and Muhammad, Ali and Zohra, Cheddad and Abbas,
Cheddad
- Abstract要約: 本稿では、ステガノグラフィー、ハーフトニング(ディザリング)、最先端浅層(RFランダムフォレストとSVR支援ベクトル回帰)とディープラーニング(LSTM-Long Short-Term Memory)を組み合わせた手法を提案する。
結果から,提案手法は有効であり,側情報による音声信号の再構成を促進できることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital audio signal reconstruction of lost or corrupt segment using deep
learning algorithms has been explored intensively in the recent years.
Nevertheless, prior traditional methods with linear interpolation, phase coding
and tone insertion techniques are still in vogue. However, we found no research
work on the reconstruction of audio signals with the fusion of dithering,
steganography, and machine learning regressors. Therefore, this paper proposes
the combination of steganography, halftoning (dithering), and state-of-the-art
shallow (RF- Random Forest and SVR- Support Vector Regression) and deep
learning (LSTM- Long Short-Term Memory) methods. The results (including
comparison to the SPAIN and Autoregressive methods) are evaluated with four
different metrics. The observations from the results show that the proposed
solution is effective and can enhance the reconstruction of audio signals
performed by the side information (noisy-latent representation) steganography
provides. This work may trigger interest in the optimization of this approach
and/or in transferring it to different domains (i.e., image reconstruction).
- Abstract(参考訳): 近年, 深層学習アルゴリズムを用いて, 失われたセグメントや破損セグメントのディジタル音声信号再構成が盛んに行われている。
それでも、線形補間、位相符号化、トーン挿入といった従来の手法はまだ流行している。
しかし, ディザリング, ステガノグラフィ, 機械学習回帰器の融合による音声信号の再構成に関する研究は行われなかった。
そこで本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端浅層(RFランダムフォレストとSVR支援ベクトル回帰)と深層学習(LSTM-Long Short-Term Memory)の組み合わせを提案する。
結果(スペインと自己回帰法との比較を含む)は4つの異なる指標で評価される。
その結果,提案手法は有効であり,サイド情報(ノイズ・ラテント表現)ステガノグラフィが提供する音声信号の再構成が促進されることがわかった。
この研究はこのアプローチの最適化や異なる領域(つまり画像再構成)への変換に関心を惹きつけるかもしれない。
関連論文リスト
- Model and Deep learning based Dynamic Range Compression Inversion [12.002024727237837]
DRCの反転は、元のダイナミクスを復元し、新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのに役立つ。
DRCインバージョンのためのニューラルネットワークを用いたモデルベースアプローチを提案する。
その結果,提案手法の有効性とロバスト性について,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2024-11-07T00:33:07Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - WNet: A data-driven dual-domain denoising model for sparse-view computed
tomography with a trainable reconstruction layer [3.832032989515628]
スパース・ビュー・アーティファクト・デノナイズのためのトレーニング可能な再構成層を含むデータ駆動型デュアルドメイン・デノナイズ・モデルWNetを提案する。
我々は2つの臨床的に関連のあるデータセットを用いてネットワークをトレーニングし、その結果を3種類のスパースビューCTと再構成アルゴリズムと比較した。
論文 参考訳(メタデータ) (2022-07-01T13:17:01Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - A SAR speckle filter based on Residual Convolutional Neural Networks [68.8204255655161]
本研究では,Convolutional Neural Networks(CNN)に基づく深層学習(DL)アルゴリズムを用いて,Sentinel-1データからスペックルノイズをフィルタリングする新しい手法を提案する。
得られた結果は、技術の現状と比較すると、ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)の点で明確な改善を示しています。
論文 参考訳(メタデータ) (2021-04-19T14:43:07Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Orthogonal Features Based EEG Signals Denoising Using Fractional and
Compressed One-Dimensional CNN AutoEncoder [3.8580784887142774]
本稿では脳波(EEG)信号の分数的1次元畳み込みニューラルネットワーク(CNN)オートエンコーダを提案する。
脳波信号は、主に筋肉アーチファクト(MA)によって、記録過程中にしばしばノイズによって汚染される。
論文 参考訳(メタデータ) (2021-04-16T13:58:05Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - RAR-U-Net: a Residual Encoder to Attention Decoder by Residual
Connections Framework for Spine Segmentation under Noisy Labels [9.81466618834274]
本稿では,ノイズラベルに基づく医用画像分割手法を提案する。
この方法は4つの新しいコントリビューションを取り入れ、ディープラーニングパラダイムの下で機能する。
実験結果は,脊椎CTのベンチマークデータベース上で公開されている。
論文 参考訳(メタデータ) (2020-09-27T15:32:50Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。