論文の概要: Learning Co-Speech Gesture for Multimodal Aphasia Type Detection
- arxiv url: http://arxiv.org/abs/2310.11710v2
- Date: Fri, 20 Oct 2023 05:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 11:25:34.312924
- Title: Learning Co-Speech Gesture for Multimodal Aphasia Type Detection
- Title(参考訳): マルチモーダル失語症型検出のための学習協調ジェスチャー
- Authors: Daeun Lee, Sejung Son, Hyolim Jeon, Seungbae Kim, Jinyoung Han
- Abstract要約: 失語症は脳損傷による言語障害である。
音声とそれに対応するジェスチャーパターンを用いた失語症型検出のためのグラフニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 12.164549524639249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aphasia, a language disorder resulting from brain damage, requires accurate
identification of specific aphasia types, such as Broca's and Wernicke's
aphasia, for effective treatment. However, little attention has been paid to
developing methods to detect different types of aphasia. Recognizing the
importance of analyzing co-speech gestures for distinguish aphasia types, we
propose a multimodal graph neural network for aphasia type detection using
speech and corresponding gesture patterns. By learning the correlation between
the speech and gesture modalities for each aphasia type, our model can generate
textual representations sensitive to gesture information, leading to accurate
aphasia type detection. Extensive experiments demonstrate the superiority of
our approach over existing methods, achieving state-of-the-art results (F1
84.2\%). We also show that gesture features outperform acoustic features,
highlighting the significance of gesture expression in detecting aphasia types.
We provide the codes for reproducibility purposes.
- Abstract(参考訳): 脳損傷による言語障害である失語症は、効果的な治療のためにブロカ失語症やヴェルニッケ失語症のような特定の失語症の正確な同定を必要とする。
しかし、異なる種類の失語症を検出する方法の開発にはほとんど注意が払われていない。
失語症を識別するための共語ジェスチャ分析の重要性を認識し,音声と対応するジェスチャパターンを用いた失語症検出のためのマルチモーダルグラフニューラルネットワークを提案する。
本モデルでは,各失語型における発話とジェスチャーのモダリティの相関関係を学習することにより,ジェスチャー情報に敏感なテキスト表現を生成できる。
実験の結果,既存手法よりも優れた手法が得られた(F1 84.2\%)。
また,ジェスチャ特徴が音響特徴よりも優れており,失語検出におけるジェスチャ表現の重要性を強調する。
再現性のためのコードを提供します。
関連論文リスト
- Leveraging Speech for Gesture Detection in Multimodal Communication [3.798147784987455]
ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションにおいてしばしば音声を補完し、マルチモーダル通信システムを形成する。
自動ジェスチャー検出の研究は、主に視覚的および運動学的情報に焦点を当て、低可変性で孤立した、あるいは無音なジェスチャーの限られたセットを検知し、音声や視覚信号の統合を無視して、音声と共起するジェスチャーを検出する。
本研究は,共同音声ジェスチャー検出に焦点をあて,音声と共同音声ジェスチャーの同期を強調することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-23T11:54:05Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Seq2seq for Automatic Paraphasia Detection in Aphasic Speech [14.686874756530322]
失語症は失語症の特徴である発話誤りであり、病気の重症度やサブタイプを評価する上で重要な信号である。
伝統的に、臨床医は言語サンプルの翻訳と分析によってパラファシアを手動で識別する。
本稿では,ASRと失語症検出の両方を行うために,エンドツーエンド(E2E)を訓練した新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
論文 参考訳(メタデータ) (2023-12-16T18:22:37Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Towards Intrinsic Common Discriminative Features Learning for Face
Forgery Detection using Adversarial Learning [59.548960057358435]
本稿では, 対人学習を利用して, 異なる偽造法と顔の同一性による負の効果を除去する手法を提案する。
我々の顔偽造検出モデルは、偽造法や顔の同一性の影響を排除し、共通の識別的特徴を抽出することを学ぶ。
論文 参考訳(メタデータ) (2022-07-08T09:23:59Z) - Bridging between Cognitive Processing Signals and Linguistic Features
via a Unified Attentional Network [25.235060468310696]
本稿では,認知処理信号と言語的特徴との関連性を検討するためのデータ駆動手法を提案する。
我々は、埋め込み、注意、エンコーディング、予測層からなる統合された注意フレームワークを提案する。
提案するフレームワークは,単一の認知データセットを用いて,幅広い言語的特徴を検出するために利用できる。
論文 参考訳(メタデータ) (2021-12-16T12:25:11Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。