論文の概要: Speaker Extraction with Co-Speech Gestures Cue
- arxiv url: http://arxiv.org/abs/2203.16840v1
- Date: Thu, 31 Mar 2022 06:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:54:43.531164
- Title: Speaker Extraction with Co-Speech Gestures Cue
- Title(参考訳): 共音声ジェスチャキューを用いた話者抽出
- Authors: Zexu Pan, Xinyuan Qian, Haizhou Li
- Abstract要約: 話者抽出のための話者キューとして,手動や体の動きなど,共同音声ジェスチャシーケンスの活用について検討する。
目標話者に対する注意深い聴取を行うために,共音声ジェスチャキューを用いて2つのネットワークを提案する。
実験結果から, 対象話者の関連付けにおいて, 共音声のジェスチャーキューが有意であり, 抽出した音声の品質は未処理の混合音声よりも有意に向上したことが示された。
- 参考スコア(独自算出の注目度): 79.91394239104908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker extraction seeks to extract the clean speech of a target speaker from
a multi-talker mixture speech. There have been studies to use a pre-recorded
speech sample or face image of the target speaker as the speaker cue. In human
communication, co-speech gestures that are naturally timed with speech also
contribute to speech perception. In this work, we explore the use of co-speech
gestures sequence, e.g. hand and body movements, as the speaker cue for speaker
extraction, which could be easily obtained from low-resolution video
recordings, thus more available than face recordings. We propose two networks
using the co-speech gestures cue to perform attentive listening on the target
speaker, one that implicitly fuses the co-speech gestures cue in the speaker
extraction process, the other performs speech separation first, followed by
explicitly using the co-speech gestures cue to associate a separated speech to
the target speaker. The experimental results show that the co-speech gestures
cue is informative in associating the target speaker, and the quality of the
extracted speech shows significant improvements over the unprocessed mixture
speech.
- Abstract(参考訳): 話者抽出は、複数話者混合音声から対象話者のクリーン音声を抽出することを目指す。
予め録音された音声サンプルや対象話者の顔画像を話者キューとして使用する研究がされている。
人間のコミュニケーションでは、自然に音声と時間をとる共同音声ジェスチャーも音声知覚に寄与する。
本研究では,低分解能映像記録から容易に得ることができる話者抽出用話者キューとして,手動・体動などの音声同時ジェスチャーシーケンスを探索し,顔記録よりも利用しやすいことを示す。
そこで,提案する2つのネットワークでは,対象話者に対して注意的な聞き取りを行うために,話者抽出プロセスにおいて,協調ジェスチャキューを暗黙的に溶かし,一方はまず音声分離を行い,他方は協調ジェスチャキューを明示的に使用し,分離した音声を対象話者に関連付ける。
実験結果から,共同音声ジェスチャの手がかりは対象話者の連想に有益であり,抽出音声の質は未処理混合音声に対して有意な改善を示した。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Improving Self-Supervised Speech Representations by Disentangling
Speakers [56.486084431528695]
音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。
話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
論文 参考訳(メタデータ) (2022-04-20T04:56:14Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - FaceFilter: Audio-visual speech separation using still images [41.97445146257419]
本稿では,2つの話者の混在した話者の発話を,ディープ・オーディオ・ビジュアル・音声分離ネットワークを用いて分離することを目的とする。
ビデオクリップの唇の動きや事前登録された話者情報を補助的条件特徴として用いた従来の作品とは異なり、対象話者の単一顔画像を使用する。
論文 参考訳(メタデータ) (2020-05-14T15:42:31Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。