論文の概要: A Novel Interpretable and Generalizable Re-synchronization Model for
Cued Speech based on a Multi-Cuer Corpus
- arxiv url: http://arxiv.org/abs/2306.02596v1
- Date: Mon, 5 Jun 2023 05:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:50:19.698229
- Title: A Novel Interpretable and Generalizable Re-synchronization Model for
Cued Speech based on a Multi-Cuer Corpus
- Title(参考訳): マルチキュアコーパスに基づくキュート音声の新たな解釈可能で一般化された再同期モデル
- Authors: Lufei Gao, Shan Huang and Li Liu
- Abstract要約: Cued Speech (CS) は、唇読取と複数の手話を組み合わせたマルチモーダル視覚符号化システムである。
そこで我々は,手先予測のための解釈可能な一般化可能なモデルを構築するために,リップストリーム上の3つの統計的尺度を提案する。
マンダリンCSは, 正常者と難聴者の間に有意差がみられた。
- 参考スコア(独自算出の注目度): 10.343833985043576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cued Speech (CS) is a multi-modal visual coding system combining lip reading
with several hand cues at the phonetic level to make the spoken language
visible to the hearing impaired. Previous studies solved asynchronous problems
between lip and hand movements by a cuer\footnote{The people who perform Cued
Speech are called the cuer.}-dependent piecewise linear model for English and
French CS. In this work, we innovatively propose three statistical measure on
the lip stream to build an interpretable and generalizable model for predicting
hand preceding time (HPT), which achieves cuer-independent by a proper
normalization. Particularly, we build the first Mandarin CS corpus comprising
annotated videos from five speakers including three normal and two hearing
impaired individuals. Consequently, we show that the hand preceding phenomenon
exists in Mandarin CS production with significant differences between normal
and hearing impaired people. Extensive experiments demonstrate that our model
outperforms the baseline and the previous state-of-the-art methods.
- Abstract(参考訳): cued speech (cs) は、唇の読みと複数の手の動きを音韻レベルで組み合わせ、音声言語を聴覚障害者に見せるマルチモーダル視覚符号化システムである。
以前の研究では、唇と手の動きの非同期な問題をcuer\footnote{the people who performing cued speech is called the cuer" によって解決した。
英語とフランス語のcsに対する区分的線形モデル
本研究では,手前の時間(HPT)を予測するための解釈可能な一般化可能なモデルを構築するために,リフストリーム上の3つの統計的尺度を革新的に提案する。
特に,正常者3名と難聴者2名を含む5人の話者の注釈付きビデオを含む最初のマンダリンCSコーパスを構築した。
その結果,マンダリンCS生産において,正常者と聴覚障害者の間に有意な差が認められた。
広範な実験により,本モデルがベースラインと先行する最先端メソッドを上回っていることが証明された。
関連論文リスト
- SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations [12.423959479216895]
ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。
K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。
本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T07:14:26Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Lip-to-Speech Synthesis in the Wild with Multi-task Learning [32.65865343643458]
野生環境においても入力された唇の動きから正しい内容で音声を再構成できる強力なLip2Speech法を開発した。
音響特徴再構成損失の単語表現不足を補うために,マルチモーダル・インスペクション(テキストと音声)を用いてモデルを指導するマルチタスク学習を設計する。
論文 参考訳(メタデータ) (2023-02-17T12:31:26Z) - Cross-Modal Mutual Learning for Cued Speech Recognition [10.225972737967249]
マルチモーダルインタラクションを促進するためのトランスフォーマーに基づく相互学習フレームワークを提案する。
我々のモデルは、モダリティ固有の異なるモダリティの情報に、モダリティ不変のコードブックを通らせるよう強制する。
中国語のための大規模多話者CSデータセットを新たに構築する。
論文 参考訳(メタデータ) (2022-12-02T10:45:33Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。