論文の概要: SLNSpeech: solving extended speech separation problem by the help of
sign language
- arxiv url: http://arxiv.org/abs/2007.10629v1
- Date: Tue, 21 Jul 2020 07:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:51:32.871273
- Title: SLNSpeech: solving extended speech separation problem by the help of
sign language
- Title(参考訳): SLNSpeech:手話による拡張音声分離問題の解法
- Authors: Jiasong Wu, Taotao Li, Youyong Kong, Guanyu Yang, Lotfi Senhadji,
Huazhong Shu
- Abstract要約: 音声分離タスクは、大まかにオーディオのみの分離と音声-視覚的分離に分けることができる。
本稿では,特に手話支援音声分離に言及した拡張音声分離問題を提案する。
音声,視覚,手話の3つのモードが共存する手話ニュース音声データセットを大規模に導入する。
- 参考スコア(独自算出の注目度): 8.402589036987301
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A speech separation task can be roughly divided into audio-only separation
and audio-visual separation. In order to make speech separation technology
applied in the real scenario of the disabled, this paper presents an extended
speech separation problem which refers in particular to sign language assisted
speech separation. However, most existing datasets for speech separation are
audios and videos which contain audio and/or visual modalities. To address the
extended speech separation problem, we introduce a large-scale dataset named
Sign Language News Speech (SLNSpeech) dataset in which three modalities of
audio, visual, and sign language are coexisted. Then, we design a general deep
learning network for the self-supervised learning of three modalities,
particularly, using sign language embeddings together with audio or
audio-visual information for better solving the speech separation task.
Specifically, we use 3D residual convolutional network to extract sign language
features and use pretrained VGGNet model to exact visual features. After that,
an improved U-Net with skip connections in feature extraction stage is applied
for learning the embeddings among the mixed spectrogram transformed from source
audios, the sign language features and visual features. Experiments results
show that, besides visual modality, sign language modality can also be used
alone to supervise speech separation task. Moreover, we also show the
effectiveness of sign language assisted speech separation when the visual
modality is disturbed. Source code will be released in
http://cheertt.top/homepage/
- Abstract(参考訳): 音声分離タスクは、大まかに音声のみ分離と音声・視覚分離に分けられる。
本稿では,障害者の現実シナリオに音声分離技術を適用するために,特に手話支援音声分離に言及した拡張音声分離問題を提案する。
しかし、既存の音声分離のためのデータセットのほとんどは、音声や映像を含むオーディオやビデオである。
拡張音声分離問題に対処するために,音声,視覚,手話の3つのモダリティが共存する,手話ニュース音声(slnspeech)データセットという大規模データセットを導入する。
次に,3つのモダリティの自己教師あり学習のための汎用深層学習ネットワークを設計,特に手話の組込みと音声や視聴覚情報を併用することにより,音声分離課題の解法を改善する。
具体的には,3次元残差畳み込みネットワークを用いて手話の特徴を抽出し,事前学習したVGGNetモデルを用いて視覚的特徴を正確に表現する。
その後、ソースオーディオから変換された混合スペクトログラム、手話特徴、視覚特徴の埋め込みを学習するために、特徴抽出段階におけるスキップ接続を備えた改良されたu-netが適用される。
実験の結果,視覚的モダリティに加えて,手話のモダリティも単独で音声分離作業の監督に利用できることがわかった。
また,視覚的モダリティが乱される場合に手話支援音声分離の有効性を示す。
ソースコードはhttp://cheertt.top/homepage/でリリースされる。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。