論文の概要: How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios
- arxiv url: http://arxiv.org/abs/2505.01338v1
- Date: Fri, 02 May 2025 15:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.075858
- Title: How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios
- Title(参考訳): 遠距離マイクロホンシナリオにおける低遅延単一チャンネル音声強調効果
- Authors: Satvik Venkatesh, Philip Coleman, Arthur Benilov, Simon Brown, Selim Sheta, Frederic Roskam,
- Abstract要約: 遠隔マイクロホンシナリオ下での低遅延単チャンネル音声強調について検討する。
このセットアップは、講義のデモンストレーション、ドラマ、ステージ音響の強化といった応用に有用である。
室内の伝達関数を減衰させる前に早期反射を保ちながら、短い減衰時間で除去すると、全体的な信号品質が向上することを示す。
- 参考スコア(独自算出の注目度): 0.3103430894815663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dereverberation is an important sub-task of Speech Enhancement (SE) to improve the signal's intelligibility and quality. However, it remains challenging because the reverberation is highly correlated with the signal. Furthermore, the single-channel SE literature has predominantly focused on rooms with short reverb times (typically under 1 second), smaller rooms (under volumes of 1000 cubic meters) and relatively short distances (up to 2 meters). In this paper, we explore real-time low-latency single-channel SE under distant microphone scenarios, such as 5 to 10 meters, and focus on conference rooms and theatres, with larger room dimensions and reverberation times. Such a setup is useful for applications such as lecture demonstrations, drama, and to enhance stage acoustics. First, we show that single-channel SE in such challenging scenarios is feasible. Second, we investigate the relationship between room volume and reverberation time, and demonstrate its importance when randomly simulating room impulse responses. Lastly, we show that for dereverberation with short decay times, preserving early reflections before decaying the transfer function of the room improves overall signal quality.
- Abstract(参考訳): デリバベーションは、信号の可知性と品質を改善するために、音声強調(SE)の重要なサブタスクである。
しかし、残響が信号と強く相関しているため、依然として困難である。
さらに、シングルチャンネルSE文献は、主に短い残響時間(1秒未満)、小さい部屋(1000立方メートル)、比較的短い距離(最大2メートル)の部屋に焦点を当てている。
本稿では,5~10m離れたマイクロホンシナリオ下でのリアルタイム低遅延シングルチャネルSEについて検討し,より大きな部屋寸法と残響時間を有する会議室や劇場に着目した。
このようなセットアップは、講義のデモンストレーションやドラマ、舞台音響の強化といった応用に有用である。
まず、このような困難なシナリオにおけるシングルチャネルSEが実現可能であることを示す。
第2に,室容積と残響時間との関係について検討し,室のインパルス応答をランダムにシミュレートする場合に,その重要性を示す。
最後に, 室内の伝達関数を減衰させる前に早期反射を保存することにより, 信号品質が向上することを示す。
関連論文リスト
- LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis [53.412307759528076]
長い音声合成における音声潜伏拡散モデルの推論を強化する新しい手法を提案する。
我々は、同じ周波数の焦点とクロス周波数の補償として指定され、同じ周波数の制約下でのアテンション計算を縮小する、二重スパース形式を用いてアテンション計算を行う。
LiteFocusは80秒音声クリップの合成において拡散ベースTTAモデルによる推論時間を1.99倍に削減した。
論文 参考訳(メタデータ) (2024-07-15T06:49:05Z) - RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification [8.90841350214225]
本稿では,音声の発話から直接部屋パラメータを推定しやすくするデュアルエンコーダアーキテクチャを提案する。
音声と音響応答を同時に埋め込むために、コントラッシブ・ロス・エンコーダ関数を用いる。
テスト段階では、残響発話のみが利用可能であり、その埋め込みはルーム形状分類のタスクに使用される。
論文 参考訳(メタデータ) (2024-06-05T10:13:55Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - A low latency attention module for streaming self-supervised speech representation learning [0.4288177321445912]
SSRL(Self-latency Speech Expression Learning)は、トランスフォーマーアーキテクチャにおける一般的なユースケースである。
本稿では,低演算およびメモリ要求のSSRLアーキテクチャのトレーニングを可能にするアテンションモジュールの実装について述べる。
私たちの実装では、推論のレイテンシも1.92秒から0.16秒に短縮しています。
論文 参考訳(メタデータ) (2023-02-27T00:44:22Z) - Short-Term Memory Convolutions [0.0]
本稿では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間レイテンシとメモリ消費の最小化手法を提案する。
STMCベースのモデルのトレーニングは、畳み込みニューラルネットワーク(CNN)のみに基づくため、より速く、より安定している。
音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
論文 参考訳(メタデータ) (2023-02-08T20:52:24Z) - SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - Multi-stage Speaker Extraction with Utterance and Frame-Level Reference
Signals [113.78060608441348]
本稿では,複数段階の話者抽出手法を提案する。
初めて、ターゲット話者の基準としてフレームレベルの逐次音声埋め込みを用いる。
論文 参考訳(メタデータ) (2020-11-19T03:08:04Z) - Don't shoot butterfly with rifles: Multi-channel Continuous Speech
Separation with Early Exit Transformer [43.79079342035695]
そこで本研究では,Transformerモデルで異なるケースを適応深度で処理できる早期出口機構を提案する。
実験結果から,早期出口機構が推論を加速するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2020-10-23T06:21:11Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。