論文の概要: SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model
- arxiv url: http://arxiv.org/abs/2411.07751v1
- Date: Tue, 12 Nov 2024 12:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:49.695106
- Title: SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model
- Title(参考訳): SAV-SE:選択状態空間モデルを用いたシーン認識音声強調
- Authors: Xinyuan Qian, Jiaran Gao, Yaodan Zhang, Qiquan Zhang, Hexin Liu, Leibny Paola Garcia, Haizhou Li,
- Abstract要約: SAV-SEは、同期ビデオからのリッチな文脈情報を、ノイズの種類を示す補助的手がかりとして使うための最初の提案である。
我々の知る限り、これは、音声強調性能を向上させるために、同期ビデオからリッチな文脈情報を補助的手がかりとして使用する最初の提案である。
- 参考スコア(独自算出の注目度): 35.60147467774199
- License:
- Abstract: Speech enhancement plays an essential role in various applications, and the integration of visual information has been demonstrated to bring substantial advantages. However, the majority of current research concentrates on the examination of facial and lip movements, which can be compromised or entirely inaccessible in scenarios where occlusions occur or when the camera view is distant. Whereas contextual visual cues from the surrounding environment have been overlooked: for example, when we see a dog bark, our brain has the innate ability to discern and filter out the barking noise. To this end, in this paper, we introduce a novel task, i.e. SAV-SE. To our best knowledge, this is the first proposal to use rich contextual information from synchronized video as auxiliary cues to indicate the type of noise, which eventually improves the speech enhancement performance. Specifically, we propose the VC-S$^2$E method, which incorporates the Conformer and Mamba modules for their complementary strengths. Extensive experiments are conducted on public MUSIC, AVSpeech and AudioSet datasets, where the results demonstrate the superiority of VC-S$^2$E over other competitive methods. We will make the source code publicly available. Project demo page: https://AVSEPage.github.io/
- Abstract(参考訳): 音声強調は様々なアプリケーションにおいて重要な役割を担い、視覚情報の統合は大きな利点をもたらすことが示されている。
しかし、現在の研究の大半は顔と唇の動きの検査に集中しており、咬合が生じたり、カメラの視界が遠ざかっていたりした場合に、妥協されるか、完全にはアクセスできない。
例えば、犬の樹皮を見るとき、私たちの脳はバーキングノイズを識別し、フィルタリングする能力を持っています。
そこで本稿では,SAV-SEという新しい課題を紹介する。
我々の知る限り、これは、音声強調性能を向上させるために、同期ビデオからリッチな文脈情報を補助的手がかりとして使用する最初の提案である。
具体的には, Conformer および Mamba モジュールを相補的強度に組み込んだ VC-S$^2$E 法を提案する。
公開MUSIC、AVSpeech、AudioSetのデータセットで大規模な実験を行い、VC-S$^2$Eが他の競合手法よりも優れていることを示す。
ソースコードを公開します。
プロジェクトデモページ: https://AVSEPage.github.io/
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z) - V2C: Visual Voice Cloning [55.55301826567474]
我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。
V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。
私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
論文 参考訳(メタデータ) (2021-11-25T03:35:18Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Speech Enhancement Without A Real Visual Stream [37.88869937166955]
現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。
唇の動きを付加的な手がかりとして用いる最近の作品は、"オーディオオンリー"な方法で発話の質を向上させます。
音声駆動唇合成における最近の進歩を利用して,音声強調のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2020-12-20T06:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。