論文の概要: A virtual reality-based method for examining audiovisual prosody
perception
- arxiv url: http://arxiv.org/abs/2209.05745v1
- Date: Tue, 13 Sep 2022 06:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:38:54.520542
- Title: A virtual reality-based method for examining audiovisual prosody
perception
- Title(参考訳): 仮想現実感に基づく視覚的韻律知覚の検査法
- Authors: Hartmut Meister, Isa Samira Winter, Moritz Waeachtler, Pascale
Sandmann and Khaled Abdellatif
- Abstract要約: 仮想人間に基づくアニメーションは、実際の話者のビデオ録画と類似した動きの手がかりを提供する。
人工内耳装用者の韻律知覚の枠組みを考察する。
- 参考スコア(独自算出の注目度): 0.46264354532383495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prosody plays a vital role in verbal communication. Acoustic cues of prosody
have been examined extensively. However, prosodic characteristics are not only
perceived auditorily, but also visually based on head and facial movements. The
purpose of this report is to present a method for examining audiovisual prosody
using virtual reality. We show that animations based on a virtual human provide
motion cues similar to those obtained from video recordings of a real talker.
The use of virtual reality opens up new avenues for examining multimodal
effects of verbal communication. We discuss the method in the framework of
examining prosody perception in cochlear implant listeners.
- Abstract(参考訳): 韻律は言語コミュニケーションにおいて重要な役割を果たす。
プロソディの音響的手がかりは広く検討されている。
しかし、韻律的特徴は聴覚だけでなく、頭と顔の動きにも基づいている。
本報告の目的は,仮想現実を用いた視聴覚韻律の検討方法を提案することである。
仮想人間に基づくアニメーションは,実際の発話者の映像記録から得られたものと同様の動きの手がかりを与える。
バーチャルリアリティーの利用は、言語コミュニケーションのマルチモーダル効果を調べるための新しい道を開く。
人工内耳装用者における韻律知覚の枠組みについて検討する。
関連論文リスト
- Sketching With Your Voice: "Non-Phonorealistic" Rendering of Sounds via Vocal Imitation [44.50441058435848]
人間の声の模倣を再現する手法を提案する。
まず、モデルの制御パラメータを調整して、音声の模倣を生成する。
人間の話者が聴取者に対して戦略的に判断する方法について,コミュニケーションの認知理論を適用した。
論文 参考訳(メタデータ) (2024-09-20T13:48:48Z) - VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time [35.43018966749148]
静止画像と音声音声クリップを1つずつ与えることで,視覚的情緒的スキル(VAS)をアピールするライフライクな発話顔を生成するためのフレームワークであるVASAを紹介した。
VASA-1は、音声と精巧に同期する唇の動きを発生させるだけでなく、顔のニュアンスや自然な頭部の動きを生じさせる。
論文 参考訳(メタデータ) (2024-04-16T15:43:22Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。