論文の概要: Audio-Visual Speech Enhancement In Complex Scenarios With Separation And Dereverberation Joint Modeling
- arxiv url: http://arxiv.org/abs/2510.26825v1
- Date: Wed, 29 Oct 2025 03:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.851836
- Title: Audio-Visual Speech Enhancement In Complex Scenarios With Separation And Dereverberation Joint Modeling
- Title(参考訳): 複合シナリオにおける音声・視覚的音声強調 : 分離・収差関節モデルによる検討
- Authors: Jiarong Du, Zhan Jin, Peijun Yang, Juan Liu, Zhuo Li, Xin Liu, Ming Li,
- Abstract要約: 本研究では,複雑な音響環境下で有効なAVSEシステムを提案する。
具体的には、他のAVSEネットワークに拡張可能な「脱バーベレーション前の分離」パイプラインを設計する。
- 参考スコア(独自算出の注目度): 10.757994012708734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual speech enhancement (AVSE) is a task that uses visual auxiliary information to extract a target speaker's speech from mixed audio. In real-world scenarios, there often exist complex acoustic environments, accompanied by various interfering sounds and reverberation. Most previous methods struggle to cope with such complex conditions, resulting in poor perceptual quality of the extracted speech. In this paper, we propose an effective AVSE system that performs well in complex acoustic environments. Specifically, we design a "separation before dereverberation" pipeline that can be extended to other AVSE networks. The 4th COGMHEAR Audio-Visual Speech Enhancement Challenge (AVSEC) aims to explore new approaches to speech processing in multimodal complex environments. We validated the performance of our system in AVSEC-4: we achieved excellent results in the three objective metrics on the competition leaderboard, and ultimately secured first place in the human subjective listening test.
- Abstract(参考訳): AVSE(Audio-visual speech enhancement)は、視覚補助情報を用いて混合音声からターゲット話者の音声を抽出するタスクである。
現実のシナリオでは、様々な干渉音や残響を伴う複雑な音響環境がしばしば存在する。
従来の手法ではこのような複雑な条件に対処することが困難であり、結果として抽出された音声の知覚的品質が低下する。
本稿では,複雑な音響環境において有効なAVSEシステムを提案する。
具体的には、他のAVSEネットワークに拡張可能な「脱バーベレーション前の分離」パイプラインを設計する。
第4回 COGMHEAR Audio-Visual Speech Enhancement Challenge (AVSEC) は,マルチモーダル複合環境における音声処理への新たなアプローチを検討することを目的としている。
AVSEC-4では、競争リーダーボード上の3つの客観的指標において優れた結果が得られ、最終的には人間の主観的聴取テストにおいて第1位を確保できた。
関連論文リスト
- Real-Time Audio-Visual Speech Enhancement Using Pre-trained Visual Representations [5.130705720747573]
本稿では,リアルタイム音声-視覚音声強調(AVSE)システムであるRAVENを提案する。
干渉する話者と背景雑音を抑えながら、画面上のターゲットスピーカを分離し、強化する。
我々の知る限り、これはリアルタイムAVSEシステムの最初のオープンソース実装である。
論文 参考訳(メタデータ) (2025-07-29T02:38:56Z) - Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。
音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。
我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文 参考訳(メタデータ) (2025-06-02T19:07:51Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。