Fugu-MT 論文翻訳(概要): Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms

論文の概要: Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms

arxiv url: http://arxiv.org/abs/2310.07161v2
Date: Tue, 21 Nov 2023 07:54:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 04:40:07.603183
Title: Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms
Title（参考訳）: VoIPプラットフォームにおける音声強調の心理的課題
Authors: Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Shuo Han, Yunyang Zeng, Ankit Shah, Bhiksha Raj
Abstract要約: この研究は、プロプライエタリな送信側演示効果の探索に根ざしている。 Oaxaca分解による方法論的新規性の導入。心理音響指標、特にPSSQとSTOIは、音声変化の包括的理解を促すために利用された。
参考スコア（独自算出の注目度）: 20.081363744228753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Within the ambit of VoIP (Voice over Internet Protocol) telecommunications, the complexities introduced by acoustic transformations merit rigorous analysis. This research, rooted in the exploration of proprietary sender-side denoising effects, meticulously evaluates platforms such as Google Meets and Zoom. The study draws upon the Deep Noise Suppression (DNS) 2020 dataset, ensuring a structured examination tailored to various denoising settings and receiver interfaces. A methodological novelty is introduced via the Oaxaca decomposition, traditionally an econometric tool, repurposed herein to analyze acoustic-phonetic perturbations within VoIP systems. To further ground the implications of these transformations, psychoacoustic metrics, specifically PESQ and STOI, were harnessed to furnish a comprehensive understanding of speech alterations. Cumulatively, the insights garnered underscore the intricate landscape of VoIP-influenced acoustic dynamics. In addition to the primary findings, a multitude of metrics are reported, extending the research purview. Moreover, out-of-domain benchmarking for both time and time-frequency domain speech enhancement models is included, thereby enhancing the depth and applicability of this inquiry. Repository: github.com/deepology/VoIP-DNS-Challenge
Abstract（参考訳）: VoIP(Voice over Internet Protocol)通信の帯域内では、音響変換によってもたらされる複雑さは厳密な分析に値する。この研究は、Google MeetsやZoomといったプラットフォームを綿密に評価する、プロプライエタリな送信側認知効果の探索に根ざしている。この研究は、deep noise reduction (dns) 2020データセットを示し、様々なノイズ設定と受信者インターフェースに合わせた構造化検査を保証している。従来はエコノメトリーツールであったOaxaca分解により,VoIPシステム内の音響・音響的摂動を分析する手法が導入された。これらの変換の影響をさらに深めるため、精神音響指標、特にPSSQとSTOIは、音声変化の包括的理解を促進するために利用された。累積的に、この洞察はVoIPの影響する音響力学の複雑な景観を浮き彫りにした。主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。さらに、時間及び時間周波数領域音声強調モデルのドメイン外ベンチマークも含み、この調査の深度と適用性を高める。 Repository: github.com/deepology/VoIP-DNS-Challenge

関連論文リスト

Advances in Intelligent Hearing Aids: Deep Learning Approaches to Selective Noise Cancellation [0.0]
本稿では,AI駆動型補聴器用選択的ノイズキャンセリングの進歩を評価する。ディープラーニングアーキテクチャ、ハードウェアデプロイメント戦略、臨床検証研究、ユーザ中心設計などにわたる知見を合成する。主な発見は、従来の手法よりも大幅に向上し、18.3dBのSI-SDRをノイズ-残響ベンチマークで改善した。
論文参考訳（メタデータ） (2025-06-25T15:05:16Z)
CLAP-S: Support Set Based Adaptation for Downstream Fiber-optic Acoustic Recognition [28.006925515022882]
CLAP(Contrastive Language-Audio Pretraining)モデルは、音響信号認識タスクにおいて前例のない性能を示した。本稿では,CLAP 適応器と CLAP 適応器を線形に補間するサポートベース適応手法 CLAP-S を提案する。実験結果から,実験室で記録した光ファイバーESC-50データセットと実世界の光ファイバーショットファイアワークデータセットの両方で競合性能が得られた。
論文参考訳（メタデータ） (2025-01-16T23:22:17Z)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:35:41Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:43:53Z)
Neural Acoustic Context Field: Rendering Realistic Room Impulse Response With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。 RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文参考訳（メタデータ） (2023-09-27T19:50:50Z)
PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。微分不可能な時間的音響パラメータを同定する。時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文参考訳（メタデータ） (2023-02-16T05:17:06Z)
End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文参考訳（メタデータ） (2022-07-08T05:18:36Z)
Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement [23.933935913913043]
本稿では,SEモデルの訓練を考慮に入れたPFPL( Phone-fortified Perceptual Los)を提案する。音声情報を効果的に組み込むために、wav2vecモデルの潜在表現に基づいてPFPLを演算する。実験の結果,PFPLは信号レベルの損失に比べて知覚的評価指標と相関することがわかった。
論文参考訳（メタデータ） (2020-10-28T18:34:28Z)
Cross-domain Adaptation with Discrepancy Minimization for Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文参考訳（メタデータ） (2020-09-05T02:54:33Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。