論文の概要: Learning Co-Speech Gesture for Multimodal Aphasia Type Detection
- arxiv url: http://arxiv.org/abs/2310.11710v2
- Date: Fri, 20 Oct 2023 05:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 11:25:34.312924
- Title: Learning Co-Speech Gesture for Multimodal Aphasia Type Detection
- Title(参考訳): マルチモーダル失語症型検出のための学習協調ジェスチャー
- Authors: Daeun Lee, Sejung Son, Hyolim Jeon, Seungbae Kim, Jinyoung Han
- Abstract要約: 失語症は脳損傷による言語障害である。
音声とそれに対応するジェスチャーパターンを用いた失語症型検出のためのグラフニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 12.164549524639249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aphasia, a language disorder resulting from brain damage, requires accurate
identification of specific aphasia types, such as Broca's and Wernicke's
aphasia, for effective treatment. However, little attention has been paid to
developing methods to detect different types of aphasia. Recognizing the
importance of analyzing co-speech gestures for distinguish aphasia types, we
propose a multimodal graph neural network for aphasia type detection using
speech and corresponding gesture patterns. By learning the correlation between
the speech and gesture modalities for each aphasia type, our model can generate
textual representations sensitive to gesture information, leading to accurate
aphasia type detection. Extensive experiments demonstrate the superiority of
our approach over existing methods, achieving state-of-the-art results (F1
84.2\%). We also show that gesture features outperform acoustic features,
highlighting the significance of gesture expression in detecting aphasia types.
We provide the codes for reproducibility purposes.
- Abstract(参考訳): 脳損傷による言語障害である失語症は、効果的な治療のためにブロカ失語症やヴェルニッケ失語症のような特定の失語症の正確な同定を必要とする。
しかし、異なる種類の失語症を検出する方法の開発にはほとんど注意が払われていない。
失語症を識別するための共語ジェスチャ分析の重要性を認識し,音声と対応するジェスチャパターンを用いた失語症検出のためのマルチモーダルグラフニューラルネットワークを提案する。
本モデルでは,各失語型における発話とジェスチャーのモダリティの相関関係を学習することにより,ジェスチャー情報に敏感なテキスト表現を生成できる。
実験の結果,既存手法よりも優れた手法が得られた(F1 84.2\%)。
また,ジェスチャ特徴が音響特徴よりも優れており,失語検出におけるジェスチャ表現の重要性を強調する。
再現性のためのコードを提供します。
関連論文リスト
- Infusing Acoustic Pause Context into Text-Based Dementia Assessment [7.8642589679025034]
本研究は, 認知障害のない被験者の認知状態, 軽度認知障害, およびアルツハイマー認知症を, 臨床的評価に基づいて区別するために, 言語モデルにおける停止強調文字の使用について検討した。
この性能は、ドイツ語の言語頻度テストと画像記述テストの実験を通じて評価され、異なる音声生成コンテキストにおけるモデルの有効性を比較した。
論文 参考訳(メタデータ) (2024-08-27T16:44:41Z) - Beyond Binary: Multiclass Paraphasia Detection with Generative Pretrained Transformers and End-to-End Models [10.131053400122308]
失語症(英: Aphasia)は、失語症として知られる言語障害である。
本稿では,GPT(Generative Pretrained Transformer)を用いて,転写産物から失語症を同定する手法を提案する。
単一シーケンスモデルはマルチクラスパラパシア検出においてGPTベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2024-07-16T03:24:51Z) - Impact of Speech Mode in Automatic Pathological Speech Detection [14.011517808456892]
本稿では,病的音声検出における音声モードの影響を解析する。
古典的な機械学習とディープラーニングという2つのカテゴリのアプローチを調べます。
以上の結果から,古典的アプローチは自然発話における病因判別に苦慮している可能性が示唆された。
対照的に、ディープラーニングアプローチは優れた性能を示し、非自発音声では従来アクセス不能だった追加の手がかりを抽出する。
論文 参考訳(メタデータ) (2024-06-14T12:19:18Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Seq2seq for Automatic Paraphasia Detection in Aphasic Speech [14.686874756530322]
失語症は失語症の特徴である発話誤りであり、病気の重症度やサブタイプを評価する上で重要な信号である。
伝統的に、臨床医は言語サンプルの翻訳と分析によってパラファシアを手動で識別する。
本稿では,ASRと失語症検出の両方を行うために,エンドツーエンド(E2E)を訓練した新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
論文 参考訳(メタデータ) (2023-12-16T18:22:37Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - Towards Intrinsic Common Discriminative Features Learning for Face
Forgery Detection using Adversarial Learning [59.548960057358435]
本稿では, 対人学習を利用して, 異なる偽造法と顔の同一性による負の効果を除去する手法を提案する。
我々の顔偽造検出モデルは、偽造法や顔の同一性の影響を排除し、共通の識別的特徴を抽出することを学ぶ。
論文 参考訳(メタデータ) (2022-07-08T09:23:59Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。