論文の概要: Lend me an Ear: Speech Enhancement Using a Robotic Arm with a Microphone Array
- arxiv url: http://arxiv.org/abs/2602.17818v1
- Date: Thu, 19 Feb 2026 20:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.586626
- Title: Lend me an Ear: Speech Enhancement Using a Robotic Arm with a Microphone Array
- Title(参考訳): マイクロホンアレーを用いたロボットアームによる音声強調
- Authors: Zachary Turcotte, François Grondin,
- Abstract要約: 音声強調性能はノイズの多い環境で著しく低下する。
既存の音声強調ソリューションは、高度なデジタル信号処理技術、ディープラーニング手法、複雑なソフトウェア最適化技術に依存している。
本稿では,マイクロホンアレイの形状を動的に修正して音響条件の変化に適応させることにより,新たな拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 3.7370186160766443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement performance degrades significantly in noisy environments, limiting the deployment of speech-controlled technologies in industrial settings, such as manufacturing plants. Existing speech enhancement solutions primarly rely on advanced digital signal processing techniques, deep learning methods, or complex software optimization techniques. This paper introduces a novel enhancement strategy that incorporates a physical optimization stage by dynamically modifying the geometry of a microphone array to adapt to changing acoustic conditions. A sixteen-microphone array is mounted on a robotic arm manipulator with seven degrees of freedom, with microphones divided into four groups of four, including one group positioned near the end-effector. The system reconfigures the array by adjusting the manipulator joint angles to place the end-effector microphones closer to the target speaker, thereby improving the reference signal quality. This proposed method integrates sound source localization techniques, computer vision, inverse kinematics, minimum variance distortionless response beamformer and time-frequency masking using a deep neural network. Experimental results demonstrate that this approach outperforms other traditional recording configruations, achieving higher scale-invariant signal-to-distortion ratio and lower word error rate accross multiple input signal-to-noise ratio conditions.
- Abstract(参考訳): 音声強調性能はノイズの多い環境で著しく低下し、製造工場などの産業環境における音声制御技術の展開が制限される。
既存の音声強調ソリューションは、主に高度なデジタル信号処理技術、ディープラーニング手法、複雑なソフトウェア最適化技術に依存している。
本稿では,マイクロホンアレイの形状を動的に修正し,音環境の変化に適応させることにより,物理最適化段階を取り入れた新しい拡張戦略を提案する。
16マイクロフォンアレイは7度の自由度を持つロボットアームマニピュレータに装着され、マイクロフォンはエンドエフェクターの近くに配置された1つのグループを含む4つのグループに分けられる。
このシステムは、マニピュレータ関節角を調整してアレイを再構成し、エンドエフェクタマイクロホンをターゲットスピーカーに近づけ、基準信号品質を向上させる。
提案手法は, 音源定位手法, コンピュータビジョン, 逆キネマティクス, 最小分散歪み無応答ビームフォーマ, 深部ニューラルネットワークを用いた時間周波数マスキングを統合する。
実験により,複数の入力信号-雑音比条件にまたがって,大規模不変信号-歪み比と単語誤り率の低減を実現し,従来の記録構成よりも優れた結果が得られた。
関連論文リスト
- A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction [15.759904937490832]
本稿では, 非線形音響計算と強化学習を統合し, 複雑な雑音と残響下での人間とロボットの相互作用を強化する新しい枠組みを提案する。
提案システムは,AIハードウェア,ロボット,マシンオーディション,人工オーディション,ブレイン・マシン・インタフェースの幅広い応用可能性を示す。
論文 参考訳(メタデータ) (2025-05-04T06:03:12Z) - Deep Active Speech Cancellation with Mamba-Masking Network [62.73250985838971]
アクティブ音声キャンセラ(ASC)のための新しい深層学習ネットワークを提案する。
提案したMamba-Maskingアーキテクチャは、符号化された参照信号と直接対話するマスキング機構を導入する。
実験の結果、ANCシナリオでは7.2dB、ASCでは6.2dBの改善が達成された。
論文 参考訳(メタデータ) (2025-02-03T09:22:26Z) - End-to-end multi-channel speaker extraction and binaural speech synthesis [26.373624846079686]
音声明瞭度と空間的音声浸漬は,遠隔会議体験を高める上で最も重要な2つの要因である。
本稿では,マルチチャネルノイズと残響信号を直接,クリーンで空間化された音声にマッピングする能力を持つエンドツーエンドのディープラーニングフレームワークを提案する。
本研究では,空間レンダリングの精度向上を目的とした,新たな等級重み付き音間レベル差損失関数を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:55:35Z) - A Physics-Informed Neural Network-Based Approach for the Spatial Upsampling of Spherical Microphone Arrays [40.98027720342511]
球面マイクロホンアレイを限られた数のカプセルで空間的にアップサンプリングする方法を提案する。
提案手法は,Rowdyアクティベーション機能を備えた物理インフォームニューラルネットワークを利用して,物理制約を利用して高次マイクロホンアレイ信号を提供する。
論文 参考訳(メタデータ) (2024-07-26T13:35:06Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文 参考訳(メタデータ) (2021-03-15T01:11:13Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。