論文の概要: HAFFormer: A Hierarchical Attention-Free Framework for Alzheimer's Disease Detection From Spontaneous Speech
- arxiv url: http://arxiv.org/abs/2405.03952v1
- Date: Tue, 7 May 2024 02:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:38:26.372464
- Title: HAFFormer: A Hierarchical Attention-Free Framework for Alzheimer's Disease Detection From Spontaneous Speech
- Title(参考訳): HAFFormer:自発音声からのアルツハイマー病検出のための階層的注意自由フレームワーク
- Authors: Zhongren Dong, Zixing Zhang, Weixiang Xu, Jing Han, Jianjun Ou, Björn W. Schuller,
- Abstract要約: 我々は,アルツハイマー病検出のための長期スピーチをよりよく扱うために,階層型注意・自由変換器(HAFFormer)という新しい枠組みを構築した。
具体的には,マルチスケールデプスワイズ・コンボリューション(Multi-Scale Depthwise Convolution)のアテンションフリーモジュールを用いて,自己アテンションを置き換え,コストのかかる計算を回避する。
ADReSS-Mデータセットに関する広範な実験を行うことで、紹介されたHAFFormerは他の最近の研究と競合する結果(82.6%の精度)を達成できる。
- 参考スコア(独自算出の注目度): 42.688549469089985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically detecting Alzheimer's Disease (AD) from spontaneous speech plays an important role in its early diagnosis. Recent approaches highly rely on the Transformer architectures due to its efficiency in modelling long-range context dependencies. However, the quadratic increase in computational complexity associated with self-attention and the length of audio poses a challenge when deploying such models on edge devices. In this context, we construct a novel framework, namely Hierarchical Attention-Free Transformer (HAFFormer), to better deal with long speech for AD detection. Specifically, we employ an attention-free module of Multi-Scale Depthwise Convolution to replace the self-attention and thus avoid the expensive computation, and a GELU-based Gated Linear Unit to replace the feedforward layer, aiming to automatically filter out the redundant information. Moreover, we design a hierarchical structure to force it to learn a variety of information grains, from the frame level to the dialogue level. By conducting extensive experiments on the ADReSS-M dataset, the introduced HAFFormer can achieve competitive results (82.6% accuracy) with other recent work, but with significant computational complexity and model size reduction compared to the standard Transformer. This shows the efficiency of HAFFormer in dealing with long audio for AD detection.
- Abstract(参考訳): 自然発声からアルツハイマー病(AD)を自動的に検出することは早期診断において重要な役割を担っている。
最近のアプローチは、長距離コンテキストの依存関係をモデル化する効率性のため、Transformerアーキテクチャに大きく依存している。
しかしながら、自己注意と音声の長さに関連する計算複雑性の二次的増加は、エッジデバイスにそのようなモデルをデプロイする際の課題となっている。
この文脈では、AD検出のための長い発話をよりよく扱うために、階層型注意・自由変換器(HAFFormer)という新しいフレームワークを構築している。
具体的には,マルチスケールデプスワイズ・コンボリューション(Multi-Scale Depthwise Convolution)の無注意モジュールを用いて自己注意を置き換え,コストのかかる計算を回避し,GELUベースのGated Linear Unitを用いてフィードフォワード層を置き換え,冗長情報を自動フィルタリングする。
さらに,階層構造を設計して,フレームレベルから対話レベルまで,さまざまな情報粒の学習を強制的に行う。
ADReSS-Mデータセットに関する広範な実験を行うことで、紹介されたHAFFormerは他の最近の研究と競合する結果(82.6%の精度)を達成できるが、標準的なTransformerと比較して計算量やモデルサイズを削減できる。
これは、AD検出のための長いオーディオを扱う際のHAFFormerの効率を示している。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Long-Tailed Anomaly Detection with Learnable Class Names [64.79139468331807]
性能評価のためのクラス不均衡とメトリクスのレベルが異なるデータセットをいくつか導入する。
次に、データセットのクラス名に頼ることなく、複数の長い尾を持つクラスから欠陥を検出する新しい手法LTADを提案する。
LTADは、ほとんどの形式のデータセットの不均衡に対して最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-29T15:26:44Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - CASHformer: Cognition Aware SHape Transformer for Longitudinal Analysis [3.7814216736076434]
CASHformerはアルツハイマー病の縦方向の軌跡をモデル化するためのトランスフォーマーベースのフレームワークである。
元のモデルに関して、パラメータの数を90%以上削減します。
提案手法と比較すると,CASHformerは再建誤差を73%削減できることがわかった。
論文 参考訳(メタデータ) (2022-07-05T14:50:21Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Data Augmentation for Dementia Detection in Spoken Language [1.7324358447544175]
最近のディープラーニング技術はより高速な診断を提供し、有望な結果を示している。
それらは大量のラベル付きデータを必要としており、認知症検出のタスクでは簡単には利用できない。
スパースデータ問題に対する効果的な解決策の1つは、データ拡張であるが、正確なメソッドを慎重に選択する必要がある。
論文 参考訳(メタデータ) (2022-06-26T13:40:25Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Delaying Interaction Layers in Transformer-based Encoders for Efficient
Open Domain Question Answering [3.111078740559015]
ドキュメントの大規模コーパス上でのオープンドメイン質問回答(ODQA)は、コンピュータ科学における重要な課題である。
本稿では,トランスモデルのアーキテクチャに汎用的な変更を適用することで,より直接的な補完的ソリューションを提案する。
結果の変種は、抽出作業における元のモデルと競合し、ODQA設定では、大幅なスピードアップ、そして多くのケースでパフォーマンス改善が可能である。
論文 参考訳(メタデータ) (2020-10-16T14:36:38Z) - To BERT or Not To BERT: Comparing Speech and Language-based Approaches
for Alzheimer's Disease Detection [17.99855227184379]
自然言語処理と機械学習はアルツハイマー病(AD)を確実に検出するための有望な技術を提供する
最近のADReSSチャレンジデータセットにおいて、AD検出のための2つのアプローチのパフォーマンスを比較し、比較する。
認知障害検出における言語学の重要性を考えると,細調整BERTモデルはAD検出タスクにおいて特徴に基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-07-26T04:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。