論文の概要: Blind Restoration of Real-World Audio by 1D Operational GANs
- arxiv url: http://arxiv.org/abs/2212.14618v1
- Date: Fri, 30 Dec 2022 10:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 17:56:14.544681
- Title: Blind Restoration of Real-World Audio by 1D Operational GANs
- Title(参考訳): 1次元操作gansによる実世界の音声のブラインド復元
- Authors: Turker Ince, Serkan Kiranyaz, Ozer Can Devecioglu, Muhammad Salman
Khan, Muhammad Chowdhury, and Moncef Gabbouj
- Abstract要約: Op-GAN(Operational Generative Adversarial Networks)による実世界の音声信号のブラインド復元手法を提案する。
提案手法はTIMIT-RAR(音声)とGTZAN-RAR(非音声)のベンチマークで広く評価されている。
平均SDRの改善は7.2dB以上と4.9dB以上である。
- 参考スコア(独自算出の注目度): 18.462912387382346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: Despite numerous studies proposed for audio restoration in the
literature, most of them focus on an isolated restoration problem such as
denoising or dereverberation, ignoring other artifacts. Moreover, assuming a
noisy or reverberant environment with limited number of fixed
signal-to-distortion ratio (SDR) levels is a common practice. However,
real-world audio is often corrupted by a blend of artifacts such as
reverberation, sensor noise, and background audio mixture with varying types,
severities, and duration. In this study, we propose a novel approach for blind
restoration of real-world audio signals by Operational Generative Adversarial
Networks (Op-GANs) with temporal and spectral objective metrics to enhance the
quality of restored audio signal regardless of the type and severity of each
artifact corrupting it. Methods: 1D Operational-GANs are used with generative
neuron model optimized for blind restoration of any corrupted audio signal.
Results: The proposed approach has been evaluated extensively over the
benchmark TIMIT-RAR (speech) and GTZAN-RAR (non-speech) datasets corrupted with
a random blend of artifacts each with a random severity to mimic real-world
audio signals. Average SDR improvements of over 7.2 dB and 4.9 dB are achieved,
respectively, which are substantial when compared with the baseline methods.
Significance: This is a pioneer study in blind audio restoration with the
unique capability of direct (time-domain) restoration of real-world audio
whilst achieving an unprecedented level of performance for a wide SDR range and
artifact types. Conclusion: 1D Op-GANs can achieve robust and computationally
effective real-world audio restoration with significantly improved performance.
The source codes and the generated real-world audio datasets are shared
publicly with the research community in a dedicated GitHub repository1.
- Abstract(参考訳): 目的: 文献に音声復元のための多くの研究が提案されているが、その多くは孤立した修復問題、例えば脱音や脱残といった問題に焦点をあて、他の成果物を無視している。
また,信号対歪比(SDR)の固定数が限られた雑音環境や残響環境を仮定することが一般的である。
しかし、現実のオーディオは、残響、センサーノイズ、様々なタイプ、重大さ、持続時間を含むバックグラウンドオーディオの混合によって、しばしば破壊される。
本研究では,実世界の音声信号の視覚的復元を,時間的・スペクトル的客観的な指標を用いたOp-GAN(Operational Generative Adversarial Networks)により提案する手法について,各アーチファクトのタイプや重大さに関わらず,復元された音声信号の品質を向上させる。
方法: 1DオペレーショナルGANは、劣化した音声信号のブラインド復元に最適化された生成ニューロンモデルで使用される。
結果:提案手法は,実世界のオーディオ信号を模倣するために,ランダムに混ざったアーチファクトをランダムにブレンドしたデータセットとgtzan-rar(non-speech)データセットに対して広く評価されている。
平均的な7.2dbと4.9dbのsdr改善がそれぞれ達成されており、これはベースライン法と比較すると相当である。
意義:これは、広いsdr範囲とアーティファクトタイプで前例のないパフォーマンスを達成しつつ、実世界のオーディオを直接(時間領域)復元するユニークな能力を持つブラインドオーディオ復元における先駆的な研究である。
結論: 1D Op-GANは、性能が大幅に向上し、堅牢で計算に有効な実世界のオーディオ再生を実現することができる。
ソースコードと生成された実世界のオーディオデータセットは、専用のgithubリポジトリ1で研究コミュニティと共有される。
関連論文リスト
- Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - BRSR-OpGAN: Blind Radar Signal Restoration using Operational Generative Adversarial Network [15.913517836391357]
現実世界のレーダー信号は、望ましくないエコー、センサーノイズ、意図的な妨害、干渉など、人工物が混ざり合っているため、しばしば破損する。
BRSR-OpGAN(Operational Generative Adversarial Network)を用いたブラインドレーダ信号復元の検討
このアプローチは、破壊の多様性や強度に関わらず、レーダ信号の品質を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-07-18T23:55:48Z) - Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI [20.432212333539628]
本稿では,機能的磁気共鳴画像(fMRI)データに基づく,より粗い音響再構成手法を提案する。
我々は,3つの公開fMRIデータセットであるBrain2Sound,Brain2Music,Brain2Speechについて検証を行った。
復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
論文 参考訳(メタデータ) (2024-05-29T03:16:14Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach [4.030910640265943]
過去の音声記録の復元など、低域劣化が不明な場合には、盲点となる。
本稿では,ゼロショット設定におけるブラインド問題に対処するBABEという新しい手法を提案する。
BABEは、実際の歴史的記録を強化する際に、堅牢な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-02T10:47:15Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文 参考訳(メタデータ) (2021-11-01T14:12:54Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。