Fugu-MT 論文翻訳(概要): RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel Multi-talker ASR

論文の概要: RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel Multi-talker ASR

arxiv url: http://arxiv.org/abs/2311.00146v1
Date: Tue, 31 Oct 2023 20:42:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 15:46:48.753421
Title: RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel Multi-talker ASR
Title（参考訳）: RIR-SF:マルチチャンネルマルチストーカーASRにおける室内インパルス応答に基づく空間的特徴
Authors: Yiwen Shao, Shi-Xiong Zhang, Dong Yu
Abstract要約: 本稿では,話者のマイクロホンアレイへの送信に対応する室内インパルス応答(RIR)と重なり合う音声信号の畳み込みを含む新しい手法を提案する。この革新的な技術は、RIR-SFとして知られる新しい空間的特徴をもたらす。 RIR-SFは既存の手法よりも優れており、マルチチャネルマルチトーカーASRシステムにおいて、文字誤り率(CER)が21.3%減少することを示す。
参考スコア（独自算出の注目度）: 41.0305667504882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-channel multi-talker automatic speech recognition (ASR) presents ongoing challenges within the speech community, particularly when confronted with significant reverberation effects. In this study, we introduce a novel approach involving the convolution of overlapping speech signals with the room impulse response (RIR) corresponding to the target speaker's transmission to a microphone array. This innovative technique yields a novel spatial feature known as the RIR-SF. Through a comprehensive comparison with the previously established state-of-the-art 3D spatial feature, both theoretical analysis and experimental results substantiate the superiority of our proposed RIR-SF. We demonstrate that the RIR-SF outperforms existing methods, leading to a remarkable 21.3\% relative reduction in the Character Error Rate (CER) in multi-channel multi-talker ASR systems. Importantly, this novel feature exhibits robustness in the face of strong reverberation, surpassing the limitations of previous approaches.
Abstract（参考訳）: マルチチャンネルマルチトーカー自動音声認識(ASR)は、特に残響効果に直面する場合、音声コミュニティ内で進行中の課題を提示する。本研究では,話者のマイクロホンアレイへの送信に対応する室内インパルス応答(RIR)と重なり合う音声信号の畳み込みを含む新しい手法を提案する。この革新的な技術は、RIR-SFとして知られる新しい空間的特徴をもたらす。従来確立されていた3次元空間特性と総合的に比較することで,提案したRIR-SFの優位性を裏付ける理論解析と実験結果が得られた。 RIR-SFは既存の手法よりも優れており、マルチチャネルマルチトーカーASRシステムにおける文字誤り率(CER)の21.3倍の相対的な減少につながっている。重要なことに、この新機能は、以前のアプローチの限界を越えて、強い残響に直面した堅牢性を示す。

関連論文リスト

Achieving Effective Virtual Reality Interactions via Acoustic Gesture Recognition based on Large Language Models [11.630591232366255]
視覚に基づくジェスチャー認識は、高い計算コスト、照明条件への感受性、プライバシー漏洩の懸念に悩まされている。難聴の高周波信号を出力し反射を捉え、チャネルインパルス応答(CIR)を符号化することで、ジェスチャーが音場を低コストでユーザ透明な方法で摂動する方法を符号化する。本稿では,VR/ARシステムにおけるCIRに基づくジェスチャー認識のための大規模言語モデル(LLM)を利用する最初のフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-10T13:19:58Z)
PromptReverb: Multimodal Room Impulse Response Generation Through Latent Rectified Flow Matching [28.59278750632839]
室内インパルス応答(RIR)生成は、没入型仮想音響環境を作成する上で重要な課題である。本稿では,これらの課題に対処する2段階の生成フレームワークであるPromptReverbを紹介する。本手法は,仮想現実感,建築音響,音響制作における実用的応用を実現する。
論文参考訳（メタデータ） (2025-10-25T21:38:07Z)
AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文参考訳（メタデータ） (2023-11-30T22:58:30Z)
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。 TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文参考訳（メタデータ） (2023-07-23T05:39:39Z)
Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。 3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文参考訳（メタデータ） (2022-06-08T16:38:24Z)
Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature [35.280174671205046]
本稿では,3次元空間におけるターゲット話者の位置情報を初めて活用することによって,課題を考察する。 2つのパラダイムについて検討した。1) 多チャンネル音声分離モジュールを備えたパイプラインシステムと,1)最先端の単一チャネルASRモジュール,2)3次元空間特徴を直接ASRシステムへの入力として使用する「オール・イン・ワン」モデルである。実験結果から,1)提案したALL-In-Oneモデルは,推定時間を半分に減らしながら,パイプラインシステムに匹敵する誤差率を達成した。
論文参考訳（メタデータ） (2021-11-22T07:19:12Z)
Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。 D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文参考訳（メタデータ） (2020-10-30T20:26:28Z)
Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。本稿では,2段階音声認識モデルを提案する。第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文参考訳（メタデータ） (2020-05-12T07:56:03Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。