論文の概要: Real-Time Audio-Visual Speech Enhancement Using Pre-trained Visual Representations
- arxiv url: http://arxiv.org/abs/2507.21448v1
- Date: Tue, 29 Jul 2025 02:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.556532
- Title: Real-Time Audio-Visual Speech Enhancement Using Pre-trained Visual Representations
- Title(参考訳): 事前学習した視覚表現を用いたリアルタイム音声強調
- Authors: Teng, Ma, Sile Yin, Li-Chia Yang, Shuo Zhang,
- Abstract要約: 本稿では,リアルタイム音声-視覚音声強調(AVSE)システムであるRAVENを提案する。
干渉する話者と背景雑音を抑えながら、画面上のターゲットスピーカを分離し、強化する。
我々の知る限り、これはリアルタイムAVSEシステムの最初のオープンソース実装である。
- 参考スコア(独自算出の注目度): 6.079415502661638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech enhancement in audio-only settings remains challenging, particularly in the presence of interfering speakers. This paper presents a simple yet effective real-time audio-visual speech enhancement (AVSE) system, RAVEN, which isolates and enhances the on-screen target speaker while suppressing interfering speakers and background noise. We investigate how visual embeddings learned from audio-visual speech recognition (AVSR) and active speaker detection (ASD) contribute to AVSE across different SNR conditions and numbers of interfering speakers. Our results show concatenating embeddings from AVSR and ASD models provides the greatest improvement in low-SNR, multi-speaker environments, while AVSR embeddings alone perform best in noise-only scenarios. In addition, we develop a real-time streaming system that operates on a computer CPU and we provide a video demonstration and code repository. To our knowledge, this is the first open-source implementation of a real-time AVSE system.
- Abstract(参考訳): 音声のみの設定における音声強調は、特に干渉話者の存在下では、依然として困難である。
本稿では,話者の干渉や背景雑音を抑えつつ,画面上のターゲット話者を分離・強化する,簡易かつ効果的なリアルタイム音声-視覚音声強調システムであるAVSE(AVSE)について述べる。
本研究では,音声-視覚音声認識(AVSR)とアクティブ話者検出(ASD)から学習した視覚埋め込みが,異なるSNR条件および干渉話者数にまたがるAVSEにどのように寄与するかを検討する。
以上の結果から, AVSR と ASD モデルとの結合は低SNR, マルチスピーカ環境において最大の改善となるが, AVSR の埋め込みはノイズのみのシナリオでのみ最適であることがわかった。
さらに,コンピュータCPUで動作するリアルタイムストリーミングシステムを開発し,ビデオデモとコードリポジトリを提供する。
我々の知る限り、これはリアルタイムAVSEシステムの最初のオープンソース実装である。
関連論文リスト
- Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - Visual Context-driven Audio Feature Enhancement for Robust End-to-End
Audio-Visual Speech Recognition [29.05833230733178]
音声・視覚対応の助けを借りて、入力ノイズの多い音声音声を強化するために、視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。
The proposed V-CAFE is designed to capture the transition of lip movement、すなわち visual context, and to generate a noise reduction mask by consider the obtained visual context。
提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。
論文 参考訳(メタデータ) (2022-07-13T08:07:19Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。