論文の概要: Hearing Loss Detection from Facial Expressions in One-on-one
Conversations
- arxiv url: http://arxiv.org/abs/2401.08972v1
- Date: Wed, 17 Jan 2024 04:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:01:27.399171
- Title: Hearing Loss Detection from Facial Expressions in One-on-one
Conversations
- Title(参考訳): 1対1会話における表情の聴覚損失検出
- Authors: Yufeng Yin, Ishwarya Ananthabhotla, Vamsi Krishna Ithapu, Stavros
Petridis, Yu-Hsiang Wu, Christi Miller
- Abstract要約: 聴覚障害のある人は、特に騒々しい環境では会話が困難である。
この困難はしばしば行動の変化として現れ、不快感や疲労などの表情によって捉えられる。
我々は,このアイデアに基づいて,会話中の人物の表情から聴覚障害を検出する問題を提起する。
- 参考スコア(独自算出の注目度): 20.12296163231457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individuals with impaired hearing experience difficulty in conversations,
especially in noisy environments. This difficulty often manifests as a change
in behavior and may be captured via facial expressions, such as the expression
of discomfort or fatigue. In this work, we build on this idea and introduce the
problem of detecting hearing loss from an individual's facial expressions
during a conversation. Building machine learning models that can represent
hearing-related facial expression changes is a challenge. In addition, models
need to disentangle spurious age-related correlations from hearing-driven
expressions. To this end, we propose a self-supervised pre-training strategy
tailored for the modeling of expression variations. We also use adversarial
representation learning to mitigate the age bias. We evaluate our approach on a
large-scale egocentric dataset with real-world conversational scenarios
involving subjects with hearing loss and show that our method for hearing loss
detection achieves superior performance over baselines.
- Abstract(参考訳): 聴覚障害のある人は、特に騒々しい環境では会話が困難である。
この困難はしばしば行動の変化として現れ、不快感や疲労の表現のような表情で捉えられる。
本研究は、このアイデアに基づいて、会話中の個人の表情から聴覚障害を検出する問題を提起する。
聴覚関連の表情変化を表現できる機械学習モデルの構築は難しい課題である。
さらに、モデルは聴覚による表現から年齢関連の急激な相関関係を解き放つ必要がある。
そこで本研究では,表現変動のモデル化に適した自己教師付き事前学習戦略を提案する。
また,年齢バイアスを軽減するために,対向表現学習を用いる。
本研究では,難聴者を含む現実の会話シナリオを持つ大規模自我中心型データセットに対するアプローチを評価し,聴力障害検出手法がベースラインよりも優れた性能を実現することを示す。
関連論文リスト
- Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文 参考訳(メタデータ) (2024-05-16T07:12:47Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。
その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。
本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文 参考訳(メタデータ) (2022-12-06T04:36:32Z) - I Only Have Eyes for You: The Impact of Masks On Convolutional-Based
Facial Expression Recognition [78.07239208222599]
今回提案したFaceChannelがマスクを持つ人からの表情認識にどのように適応するかを評価します。
また、制約された社会的相互作用シナリオにおける顔の特徴の変化を学習し、組み合わせるためのFaceChannelの本質的な能力を示すために、特定の機能レベルの可視化も行います。
論文 参考訳(メタデータ) (2021-04-16T20:03:30Z) - Can you hear me $\textit{now}$? Sensitive comparisons of human and
machine perception [3.8580784887142774]
我々は、この非対称性が、人間と機械の知覚の重なり合いを誤って推定する比較をいかに引き起こすかを探る。
5つの実験において、人間の心理物理学文献のタスクデザインを適用し、被験者がそのような音声コマンドを自由に書き起こせない場合でも、他の形態の理解を示せることを示す。
我々は、人間と機械の知覚を比較する際に、このような「敏感なテスト」を採用することを推奨する。
論文 参考訳(メタデータ) (2020-03-27T16:24:08Z) - On the human evaluation of audio adversarial examples [1.7006003864727404]
逆の例は、意図的に摂動して、気づかれずに間違った予測を生成する入力である。
提案した対向的摂動戦略のばかばかしさは、摂動が検出できない場合にのみ有用である。
コンベンションで使用されるメトリクスは、音声領域における敵対的事例の知覚的類似性の信頼できる尺度ではないことを実証する。
論文 参考訳(メタデータ) (2020-01-23T10:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。