論文の概要: Look Once to Hear: Target Speech Hearing with Noisy Examples
- arxiv url: http://arxiv.org/abs/2405.06289v2
- Date: Mon, 13 May 2024 17:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 12:26:58.933712
- Title: Look Once to Hear: Target Speech Hearing with Noisy Examples
- Title(参考訳): 耳に耳を傾ける:雑音のある音声をターゲットに
- Authors: Bandhav Veluri, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota,
- Abstract要約: 混み合った環境では、人間の脳はターゲット話者からのスピーチに集中することができる。
本稿では,この能力を実現するための新しいインテリジェントな聴取システムを提案する。
- 参考スコア(独自算出の注目度): 14.386776139261004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In crowded settings, the human brain can focus on speech from a target speaker, given prior knowledge of how they sound. We introduce a novel intelligent hearable system that achieves this capability, enabling target speech hearing to ignore all interfering speech and noise, but the target speaker. A naive approach is to require a clean speech example to enroll the target speaker. This is however not well aligned with the hearable application domain since obtaining a clean example is challenging in real world scenarios, creating a unique user interface problem. We present the first enrollment interface where the wearer looks at the target speaker for a few seconds to capture a single, short, highly noisy, binaural example of the target speaker. This noisy example is used for enrollment and subsequent speech extraction in the presence of interfering speakers and noise. Our system achieves a signal quality improvement of 7.01 dB using less than 5 seconds of noisy enrollment audio and can process 8 ms of audio chunks in 6.24 ms on an embedded CPU. Our user studies demonstrate generalization to real-world static and mobile speakers in previously unseen indoor and outdoor multipath environments. Finally, our enrollment interface for noisy examples does not cause performance degradation compared to clean examples, while being convenient and user-friendly. Taking a step back, this paper takes an important step towards enhancing the human auditory perception with artificial intelligence. We provide code and data at: https://github.com/vb000/LookOnceToHear.
- Abstract(参考訳): 混み合った環境では、人間の脳はターゲット話者からのスピーチに集中することができる。
本稿では,この能力を実現するための新しいインテリジェントな聴取システムを提案する。
ナイーブなアプローチは、ターゲット話者を登録するためにクリーンな音声サンプルを必要とすることである。
しかしこれは、クリーンな例を得ることは現実のシナリオでは困難であり、ユニークなユーザーインターフェイスの問題を生み出すため、聞き取り可能なアプリケーションドメインとうまく一致しない。
本稿では,対象話者を数秒間観察して,目標話者の単一,短く,雑音の多いバイノーラルな例を捉える,最初の登録インタフェースを提案する。
このノイズのある例は、干渉する話者や雑音の存在下での音声抽出の登録と後続の音声抽出に使用される。
本システムでは,5秒未満の雑音の入出力音声を用いて7.01dBの信号品質向上を実現し,6.24msで8ミリ秒の音声チャンクを処理可能である。
本研究は,屋内および屋外のマルチパス環境における実世界の静的・移動型話者への一般化を実証するものである。
最後に、ノイズの多い例の登録インターフェースは、クリーンな例に比べてパフォーマンスの劣化を起こさないが、便利でユーザフレンドリーである。
一歩後退して、人工知能による人間の聴覚知覚を高めるための重要な一歩を踏み出した。
https://github.com/vb000/LookOnceToHear.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s
関連論文リスト
- Target conversation extraction: Source separation using turn-taking dynamics [17.255853472151202]
本稿では,ターゲット会話抽出の新たな課題について紹介する。その目的は,参加者の1人の話者埋め込みに基づいて,対象会話の音声を抽出することである。
ニューラルネットワークを用いて、英語とマンダリンの会話データセットに対する我々のアプローチの有効性を示す。
干渉話者の存在下では,2対4対4対4対4対4対4対4対7.92対2対1対1対1対1対1対1対8.19対1対1対1対4対4対4対4対2対2対2対2対2対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対2対2対2対2対4対1対2対2対2対2対2対2対2対2対2対1対1対1対1対1対1対1対1
論文 参考訳(メタデータ) (2024-07-15T22:55:27Z) - HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System [0.9591674293850556]
学習音声サンプルに知覚不能な摂動を埋め込んだHiddenSpeakerというフレームワークを提案する。
以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の知覚能力を高めることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T15:49:00Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - A Deep Reinforcement Learning Approach to Audio-Based Navigation in a
Multi-Speaker Environment [1.0527821704930371]
環境からの生の聴覚感覚情報のみを使用して、2次元空間をナビゲートできる自律エージェントを作成します。
私たちの実験は、エージェントが部屋の$ N$事前定義されたスピーカーのセットの中で特定のターゲットスピーカーを首尾よく識別できることを示しています。
エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。
論文 参考訳(メタデータ) (2021-05-10T16:26:47Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。