論文の概要: CSLNSpeech: solving extended speech separation problem with the help of
Chinese sign language
- arxiv url: http://arxiv.org/abs/2007.10629v2
- Date: Fri, 3 Nov 2023 02:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 18:50:26.940448
- Title: CSLNSpeech: solving extended speech separation problem with the help of
Chinese sign language
- Title(参考訳): CSLNSpeech:中国語手話による拡張音声分離問題の解法
- Authors: Jiasong Wu, Xuan Li, Taotao Li, Fanman Meng, Youyong Kong, Guanyu
Yang, Lotfi Senhadji, Huazhong Shu
- Abstract要約: 顔と手話の両方が支援する音声分離問題を解くモデルを提案する。
我々は3つのモーダル、音声、顔、手話情報の組み合わせを学習するための一般的なディープラーニングネットワークを設計する。
実験結果から,提案手法は通常の音声・視覚システムよりも優れた性能とロバスト性を示した。
- 参考スコア(独自算出の注目度): 25.474160807315215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous audio-visual speech separation methods use the synchronization of
the speaker's facial movement and speech in the video to supervise the speech
separation in a self-supervised way. In this paper, we propose a model to solve
the speech separation problem assisted by both face and sign language, which we
call the extended speech separation problem. We design a general deep learning
network for learning the combination of three modalities, audio, face, and sign
language information, for better solving the speech separation problem. To
train the model, we introduce a large-scale dataset named the Chinese Sign
Language News Speech (CSLNSpeech) dataset, in which three modalities of audio,
face, and sign language coexist. Experiment results show that the proposed
model has better performance and robustness than the usual audio-visual system.
Besides, sign language modality can also be used alone to supervise speech
separation tasks, and the introduction of sign language is helpful for
hearing-impaired people to learn and communicate. Last, our model is a general
speech separation framework and can achieve very competitive separation
performance on two open-source audio-visual datasets. The code is available at
https://github.com/iveveive/SLNSpeech
- Abstract(参考訳): 従来の音声・視覚音声分離手法では,映像中の話者の顔の動きと音声の同期を利用して,音声分離を自己教師あり方式で監視している。
本稿では,手話と顔の双方が支援する音声分離問題を解くためのモデルを提案し,この問題を拡張音声分離問題と呼ぶ。
本研究では,音声,顔,手話の3つのモダリティの組み合わせを学習する汎用深層学習ネットワークを設計し,音声分離問題を解決する。
モデルをトレーニングするために,中国語手話ニュース音声(cslnspeech)データセットと呼ばれる大規模データセットを導入し,音声,顔,手話の3つのモダリティが共存する。
実験の結果,提案手法は従来の視聴覚システムよりも性能と頑健性が向上した。
さらに、手話のモダリティは単独で音声分離タスクを監督することもできますし、手話の導入は聴覚障害者の学習とコミュニケーションに役立ちます。
最後に、我々のモデルは一般的な音声分離フレームワークであり、2つのオープンソース音声視覚データセット上で非常に競争力のある分離性能を実現することができる。
コードはhttps://github.com/iveveive/slnspeechで入手できる。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。