論文の概要: A Multimodal Approach for Dementia Detection from Spontaneous Speech
with Tensor Fusion Layer
- arxiv url: http://arxiv.org/abs/2211.04368v1
- Date: Tue, 8 Nov 2022 16:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:36:28.795966
- Title: A Multimodal Approach for Dementia Detection from Spontaneous Speech
with Tensor Fusion Layer
- Title(参考訳): テンソル融合層を有する自発音声からの認知症検出のためのマルチモーダルアプローチ
- Authors: Loukas Ilias, Dimitris Askounis, John Psarras
- Abstract要約: アルツハイマー病(英語: Alzheimer's disease、AD)は、記憶、思考能力、精神能力に影響を及ぼす進行性神経疾患である。
我々は、エンドツーエンドのトレーニング可能な方法でトレーニングし、モーダル間相互作用とモーダル間相互作用をキャプチャできるディープニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Alzheimer's disease (AD) is a progressive neurological disorder, meaning that
the symptoms develop gradually throughout the years. It is also the main cause
of dementia, which affects memory, thinking skills, and mental abilities.
Nowadays, researchers have moved their interest towards AD detection from
spontaneous speech, since it constitutes a time-effective procedure. However,
existing state-of-the-art works proposing multimodal approaches do not take
into consideration the inter- and intra-modal interactions and propose early
and late fusion approaches. To tackle these limitations, we propose deep neural
networks, which can be trained in an end-to-end trainable way and capture the
inter- and intra-modal interactions. Firstly, each audio file is converted to
an image consisting of three channels, i.e., log-Mel spectrogram, delta, and
delta-delta. Next, each transcript is passed through a BERT model followed by a
gated self-attention layer. Similarly, each image is passed through a Swin
Transformer followed by an independent gated self-attention layer. Acoustic
features are extracted also from each audio file. Finally, the representation
vectors from the different modalities are fed to a tensor fusion layer for
capturing the inter-modal interactions. Extensive experiments conducted on the
ADReSS Challenge dataset indicate that our introduced approaches obtain
valuable advantages over existing research initiatives reaching Accuracy and
F1-score up to 86.25% and 85.48% respectively.
- Abstract(参考訳): アルツハイマー病(英: alzheimer's disease、ad)は、進行性神経疾患であり、症状が年々徐々に進行することを意味する。
また、認知症の主な原因であり、記憶、思考能力、精神能力に影響を及ぼす。
現在、研究者は、時間効果のある手順を構成するため、自発的な音声からの広告検出に関心を移している。
しかしながら、マルチモーダルアプローチを提案する既存の最先端の作品は、モーダル間相互作用やイントラモーダル相互作用を考慮せず、早期および後期融合アプローチを提案する。
これらの制限に対処するために、我々は、エンドツーエンドのトレーニング可能な方法でトレーニングし、モーダル間およびモーダル間相互作用をキャプチャできるディープニューラルネットワークを提案する。
まず、各オーディオファイルは、log-mel spectrogram、delta、delta-deltaの3つのチャネルからなるイメージに変換される。
次に、各転写文字はBERTモデルに渡され、ゲートされた自己保持層が続く。
同様に、各画像はスウィントランスを通り、独立したゲート付き自己着脱層が続く。
音響的特徴も各音声ファイルから抽出される。
最後に、異なるモジュラリティからの表現ベクトルをテンソル融合層に供給し、モーダル間相互作用をキャプチャする。
ADReSS Challengeデータセットで実施された大規模な実験は、我々の導入したアプローチが、それぞれ86.25%と85.48%のF1スコアに達する既存の研究イニシアチブに対して有益であることを示している。
関連論文リスト
- Diagnosing Alzheimer's Disease using Early-Late Multimodal Data Fusion
with Jacobian Maps [1.5501208213584152]
アルツハイマー病(英語: Alzheimer's disease、AD)は、老化に影響を及ぼす神経変性疾患である。
本稿では,自動特徴抽出とランダム森林のための畳み込みニューラルネットワークを利用する,効率的な早期融合(ELF)手法を提案する。
脳の容積の微妙な変化を検出するという課題に対処するために、画像をヤコビ領域(JD)に変換する。
論文 参考訳(メタデータ) (2023-10-25T19:02:57Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Context-aware attention layers coupled with optimal transport domain
adaptation and multimodal fusion methods for recognizing dementia from
spontaneous speech [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因である複雑な神経認知疾患である。
そこで本研究では,AD患者検出のための新しい手法を提案する。
ADReSSとADReSSo Challengeで実施した実験は、既存の研究イニシアチブに対して導入したアプローチの有効性を示している。
論文 参考訳(メタデータ) (2023-05-25T18:18:09Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Neural Architecture Search with Multimodal Fusion Methods for Diagnosing
Dementia [14.783829037950984]
アルツハイマー型認知症を認知するための機械学習手法と併用した自然発話の活用が話題となっている。
CNNアーキテクチャを見つけるのは時間を要するプロセスであり、専門知識を必要とする。
マルチモーダル因子化バイリニアポーリングやタッカー分解などの融合手法を用いて、音声とテキストの両モードを合成する。
論文 参考訳(メタデータ) (2023-02-12T11:25:29Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Detecting Dementia from Speech and Transcripts using Transformers [0.0]
アルツハイマー病(英語: Alzheimer's disease, AD)は、治療法がないため早期に診断されない場合、日常生活に深刻な影響を与える神経変性疾患である。
現在の研究は、自然発声から認知症を診断することに焦点を当てている。
論文 参考訳(メタデータ) (2021-10-27T21:00:01Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Detecting Parkinsonian Tremor from IMU Data Collected In-The-Wild using
Deep Multiple-Instance Learning [59.74684475991192]
パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人口の約1%に影響を与える徐々に進化する神経学的疾患である。
PD症状には、震動、剛性、ブレイキネジアがある。
本稿では,スマートフォン端末から受信したIMU信号に基づいて,PDに関連するトレモラスなエピソードを自動的に識別する手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。