論文の概要: Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation
- arxiv url: http://arxiv.org/abs/2011.14334v1
- Date: Sun, 29 Nov 2020 10:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 08:55:27.832986
- Title: Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation
- Title(参考訳): 対角的視覚表現を用いた音声・視覚音声分離
- Authors: Peng Zhang, Jiaming Xu, Jing shi, Yunzhe Hao, Bo Xu
- Abstract要約: 音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 23.38624506211003
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech separation aims to separate individual voice from an audio mixture of
multiple simultaneous talkers. Although audio-only approaches achieve
satisfactory performance, they build on a strategy to handle the predefined
conditions, limiting their application in the complex auditory scene. Towards
the cocktail party problem, we propose a novel audio-visual speech separation
model. In our model, we use the face detector to detect the number of speakers
in the scene and use visual information to avoid the permutation problem. To
improve our model's generalization ability to unknown speakers, we extract
speech-related visual features from visual inputs explicitly by the
adversarially disentangled method, and use this feature to assist speech
separation. Besides, the time-domain approach is adopted, which could avoid the
phase reconstruction problem existing in the time-frequency domain models. To
compare our model's performance with other models, we create two benchmark
datasets of 2-speaker mixture from GRID and TCDTIMIT audio-visual datasets.
Through a series of experiments, our proposed model is shown to outperform the
state-of-the-art audio-only model and three audio-visual models.
- Abstract(参考訳): 音声分離は、複数の同時話者の音声混合から個々の音声を分離することを目的としている。
オーディオのみのアプローチは十分な性能を発揮するが、事前定義された条件を扱う戦略を構築し、複雑な聴覚シーンでの使用を制限する。
カクテルパーティ問題に向けて,新しい音声・視覚音声分離モデルを提案する。
本モデルでは,顔検出器を用いてシーン内の話者数を検知し,視覚情報を用いて順列問題を回避する。
未知話者に対するモデルの一般化能力を向上させるため,逆アンタングル法による視覚入力から音声関連視覚特徴を抽出し,この特徴を用いて音声分離を支援する。
さらに、時間領域アプローチを採用することで、時間周波数ドメインモデルに存在する位相再構成の問題を回避することができる。
モデルの性能を他のモデルと比較するため、GRIDとTCDTIMITのオーディオ・ビジュアル・データセットから2話者混合のベンチマークデータセットを作成する。
実験により,提案モデルが最先端の音声のみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
関連論文リスト
- RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues [45.095482324156606]
本稿では,複数話者の同時分離を容易にするマルチ話者分離フレームワークを提案する。
VoxCeleb2 と LRS3 のデータセットによる実験結果から,2, 3, 4, 5 話者を分離した場合に,本手法が最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-07-27T09:56:23Z) - Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach [3.89476785897726]
AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
論文 参考訳(メタデータ) (2024-06-02T23:51:43Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Seeing Through the Conversation: Audio-Visual Speech Separation based on
Diffusion Model [13.96610874947899]
AVDiffuSS は自然サンプルの生成能力で知られている拡散メカニズムに基づく音声・視覚的音声分離モデルである。
拡散の2つのモードを効果的に融合させるため,クロスアテンションに基づく特徴融合機構を提案する。
提案手法は,VoxCeleb2 と LRS3 の2つのベンチマークを用いて,より自然な音声を生成する。
論文 参考訳(メタデータ) (2023-10-30T14:39:34Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。