Fugu-MT 論文翻訳(概要): Machine Learning: Challenges, Limitations, and Compatibility for Audio Restoration Processes

論文の概要: Machine Learning: Challenges, Limitations, and Compatibility for Audio Restoration Processes

arxiv url: http://arxiv.org/abs/2109.02692v1
Date: Mon, 6 Sep 2021 18:40:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-09 03:27:16.384463
Title: Machine Learning: Challenges, Limitations, and Compatibility for Audio Restoration Processes
Title（参考訳）: 機械学習:オーディオ復元プロセスの課題、限界、互換性
Authors: Owen Casey, Rushit Dave, Naeem Seliya, Evelyn R Sowells Boone
Abstract要約: プロジェクトの目的は、音声データから新しい訓練されたモデルを構築し、データ損失によって引き起こされる圧縮アーチファクト歪みの特徴を学ぶことである。生成されたジェネレータは、劣化した音声を復元するために使用される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper machine learning networks are explored for their use in restoring degraded and compressed speech audio. The project intent is to build a new trained model from voice data to learn features of compression artifacting distortion introduced by data loss from lossy compression and resolution loss with an existing algorithm presented in SEGAN: Speech Enhancement Generative Adversarial Network. The resulting generator from the model was then to be used to restore degraded speech audio. This paper details an examination of the subsequent compatibility and operational issues presented by working with deprecated code, which obstructed the trained model from successfully being developed. This paper further serves as an examination of the challenges, limitations, and compatibility in the current state of machine learning.
Abstract（参考訳）: 本稿では,劣化音声と圧縮音声の復元に用いる機械学習ネットワークについて検討する。プロジェクトの目的は、SEGANで提示された既存のアルゴリズムにより、データ損失と解像度損失から生じる圧縮アーチファクト歪みの特徴を学ぶために、音声データから新しい訓練されたモデルを構築することである。モデルから得られた生成物は、劣化した音声を復元するために使用される。本稿では、非推奨コードを扱うことで生じる互換性と運用上の課題について検討し、トレーニングされたモデルの開発が成功するのを妨げた。本稿ではさらに,機械学習の現状における課題,限界,互換性について検討する。

関連論文リスト

Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文参考訳（メタデータ） (2023-09-27T17:21:13Z)
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文参考訳（メタデータ） (2023-08-07T05:05:49Z)
Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文参考訳（メタデータ） (2023-06-02T10:43:42Z)
Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval [11.161404854726348]
本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
論文参考訳（メタデータ） (2022-10-06T11:45:14Z)
BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文参考訳（メタデータ） (2022-06-24T02:26:40Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Knowledge Transfer from Large-scale Pretrained Language Models to End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文参考訳（メタデータ） (2022-02-16T07:02:24Z)
Active Restoration of Lost Audio Signals Using Machine Learning and Latent Information [0.7252027234425334]
本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端の浅層・深層学習法の組み合わせを提案する。本研究では,信号対雑音比(SNR),目標差次数(ODG),およびハンセンの音質測定値を用いて,塗装性能の向上を示す。
論文参考訳（メタデータ） (2021-11-21T20:11:33Z)
Audio Impairment Recognition Using a Correlation-Based Feature Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文参考訳（メタデータ） (2020-03-22T13:34:37Z)
Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文参考訳（メタデータ） (2020-01-25T00:24:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。