論文の概要: Real-Time System for Audio-Visual Target Speech Enhancement
- arxiv url: http://arxiv.org/abs/2509.20741v1
- Date: Thu, 25 Sep 2025 04:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.695761
- Title: Real-Time System for Audio-Visual Target Speech Enhancement
- Title(参考訳): 音声目標音声強調のためのリアルタイムシステム
- Authors: T. Aleksandra Ma, Sile Yin, Li-Chia Yang, Shuo Zhang,
- Abstract要約: 本稿では,CPU上で完全に動作するように設計されたリアルタイム音声・視覚音声強調システムを提案する。
RAVENは、音声・視覚音声認識モデルからの事前学習された視覚埋め込みを用いて、唇の動き情報をエンコードすることで、このギャップを埋める。
このデモでは、参加者はマイクとウェブカメラのセットアップを使って、ヘッドフォンによるクリーンな音声再生によって、ライブの音声と視覚のターゲット音声の強調を体験することができる。
- 参考スコア(独自算出の注目度): 4.750468009386675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a live demonstration for RAVEN, a real-time audio-visual speech enhancement system designed to run entirely on a CPU. In single-channel, audio-only settings, speech enhancement is traditionally approached as the task of extracting clean speech from environmental noise. More recent work has explored the use of visual cues, such as lip movements, to improve robustness, particularly in the presence of interfering speakers. However, to our knowledge, no prior work has demonstrated an interactive system for real-time audio-visual speech enhancement operating on CPU hardware. RAVEN fills this gap by using pretrained visual embeddings from an audio-visual speech recognition model to encode lip movement information. The system generalizes across environmental noise, interfering speakers, transient sounds, and even singing voices. In this demonstration, attendees will be able to experience live audio-visual target speech enhancement using a microphone and webcam setup, with clean speech playback through headphones.
- Abstract(参考訳): 本稿では,CPU上で完全に動作するように設計されたリアルタイム音声・視覚音声強調システムであるRAVENについて実演する。
単一チャンネルの音声のみの設定では、環境騒音からクリーンな音声を抽出する作業として音声強調が伝統的に行われている。
近年の研究では、特に干渉話者の存在下での頑健性を改善するために、唇の動きのような視覚的手がかりの使用について検討されている。
しかし、我々の知る限り、CPUハードウェア上で動作するリアルタイム音声・視覚音声強調のための対話型システムについて、これまでの研究は示されていない。
RAVENは、音声・視覚音声認識モデルからの事前学習された視覚埋め込みを用いて、唇の動き情報をエンコードすることで、このギャップを埋める。
このシステムは、環境騒音、スピーカーの干渉、過渡的な音、さらには歌声さえも一般化する。
このデモでは、参加者はマイクとウェブカメラのセットアップを使って、ヘッドフォンによるクリーンな音声再生によって、ライブの音声と視覚のターゲット音声の強調を体験することができる。
関連論文リスト
- Real-Time Audio-Visual Speech Enhancement Using Pre-trained Visual Representations [5.130705720747573]
本稿では,リアルタイム音声-視覚音声強調(AVSE)システムであるRAVENを提案する。
干渉する話者と背景雑音を抑えながら、画面上のターゲットスピーカを分離し、強化する。
我々の知る限り、これはリアルタイムAVSEシステムの最初のオープンソース実装である。
論文 参考訳(メタデータ) (2025-07-29T02:38:56Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。