論文の概要: The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link
between Phonemes and Facial Features
- arxiv url: http://arxiv.org/abs/2307.13953v1
- Date: Wed, 26 Jul 2023 04:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 13:26:52.790053
- Title: The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link
between Phonemes and Facial Features
- Title(参考訳): 音韻とヴィザジュの隠れた踊り--音韻と顔の特徴の巧妙な関係を解き明かす
- Authors: Liao Qu, Xianwei Zou, Xiang Li, Yandong Wen, Rita Singh, Bhiksha Raj
- Abstract要約: この研究は、音素と顔の特徴の巧妙なリンクを明らかにする。
生理学的観点から見ると、音声の各部分(音素)は、顔の様々な種類の気流と動きに対応している。
その結果, 子音, 特に発声音と比較して, AMは母音からより予測可能であることが示唆された。
- 参考スコア(独自算出の注目度): 27.89284938655708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work unveils the enigmatic link between phonemes and facial features.
Traditional studies on voice-face correlations typically involve using a long
period of voice input, including generating face images from voices and
reconstructing 3D face meshes from voices. However, in situations like
voice-based crimes, the available voice evidence may be short and limited.
Additionally, from a physiological perspective, each segment of speech --
phoneme -- corresponds to different types of airflow and movements in the face.
Therefore, it is advantageous to discover the hidden link between phonemes and
face attributes. In this paper, we propose an analysis pipeline to help us
explore the voice-face relationship in a fine-grained manner, i.e., phonemes
v.s. facial anthropometric measurements (AM). We build an estimator for each
phoneme-AM pair and evaluate the correlation through hypothesis testing. Our
results indicate that AMs are more predictable from vowels compared to
consonants, particularly with plosives. Additionally, we observe that if a
specific AM exhibits more movement during phoneme pronunciation, it is more
predictable. Our findings support those in physiology regarding correlation and
lay the groundwork for future research on speech-face multimodal learning.
- Abstract(参考訳): この研究は、音素と顔の特徴を巧妙に結びつける。
音声と顔の相関に関する従来の研究では、音声から顔画像を生成し、音声から3d顔メッシュを再構築するなど、音声入力の長期的使用が一般的である。
しかし、音声による犯罪のような状況では、利用可能な音声証拠は短く制限される可能性がある。
さらに、生理的観点からは、音声の各部分(音素)は、顔の様々な種類の気流と動きに対応している。
したがって、音素と顔属性の隠れたリンクを見つけるのが有利である。
本稿では,音素v.s.顔面計測(am)を用いて,音声と顔の関係を詳細に検討するための分析パイプラインを提案する。
我々は,各音素-AMペアに対する推定器を構築し,仮説テストにより相関性を評価する。
その結果, 子音, 特に発声音と比較して, AMは母音からより予測可能であることが示唆された。
さらに、特定のamが音素発音中により多くの動きを示す場合、より予測可能であることも観察する。
本研究は,相関関係に関する生理学の諸問題をサポートし,音声対マルチモーダル学習の今後の研究に向けた基礎研究を展開する。
関連論文リスト
- Rethinking Voice-Face Correlation: A Geometry View [34.94679112707095]
音声から予測可能な顔AMを識別し,それを用いて3次元顔再構成を誘導する音声人文計測(AM)-顔パラダイムを提案する。
鼻腔や頭蓋骨などの顔面形態の音声と特定の部位の間に有意な相関関係が認められた。
論文 参考訳(メタデータ) (2023-07-26T04:03:10Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Affective social anthropomorphic intelligent system [1.7849339006560665]
本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。
特定の感情の属性をマッピングするために,音声スタイルの伝達法も提案されている。
論文 参考訳(メタデータ) (2023-04-19T18:24:57Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Controlled AutoEncoders to Generate Faces from Voices [30.062970046955577]
学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
論文 参考訳(メタデータ) (2021-07-16T16:04:29Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。