論文の概要: Towards Interpretable Sleep Stage Classification Using Cross-Modal
Transformers
- arxiv url: http://arxiv.org/abs/2208.06991v1
- Date: Mon, 15 Aug 2022 03:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:56:05.930877
- Title: Towards Interpretable Sleep Stage Classification Using Cross-Modal
Transformers
- Title(参考訳): クロスモーダルトランスを用いた解釈型睡眠ステージ分類に向けて
- Authors: Jathurshan Pradeepkumar, Mithunjha Anandakumar, Vinith Kugathasan,
Dhinesh Suntharalingham, Simon L. Kappel, Anjula C. De Silva and Chamira U.
S. Edussooriya
- Abstract要約: 本研究では,睡眠段階分類のためのトランスを用いたクロスモーダルトランスを提案する。
我々のモデルは、最先端のアプローチと競合する性能を両立させ、ディープラーニングモデルのブラックボックスの挙動をなくす。
- 参考スコア(独自算出の注目度): 3.0397389193348614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate sleep stage classification is significant for sleep health
assessment. In recent years, several deep learning and machine learning based
sleep staging algorithms have been developed and they have achieved performance
on par with human annotation. Despite improved performance, a limitation of
most deep-learning based algorithms is their Black-box behavior, which which
have limited their use in clinical settings. Here, we propose Cross-Modal
Transformers, which is a transformer-based method for sleep stage
classification. Our models achieve both competitive performance with the
state-of-the-art approaches and eliminates the Black-box behavior of
deep-learning models by utilizing the interpretability aspect of the attention
modules. The proposed cross-modal transformers consist of a novel cross-modal
transformer encoder architecture along with a multi-scale 1-dimensional
convolutional neural network for automatic representation learning. Our sleep
stage classifier based on this design was able to achieve sleep stage
classification performance on par with or better than the state-of-the-art
approaches, along with interpretability, a fourfold reduction in the number of
parameters and a reduced training time compared to the current
state-of-the-art. Our code is available at
https://github.com/Jathurshan0330/Cross-Modal-Transformer.
- Abstract(参考訳): 正確な睡眠ステージ分類は睡眠健康評価に重要である。
近年、いくつかのディープラーニングと機械学習に基づく睡眠ステージングアルゴリズムが開発され、人間のアノテーションと同等のパフォーマンスを達成している。
パフォーマンスの改善にもかかわらず、ほとんどのディープラーニングベースのアルゴリズムの制限はブラックボックスの振る舞いであり、臨床環境での使用を制限する。
本稿では,睡眠段階分類のためのトランスフォーマー方式であるクロスモーダルトランスを提案する。
本モデルでは,最先端のアプローチで両立し,アテンションモジュールの解釈可能性を利用したディープラーニングモデルのブラックボックス挙動を解消する。
提案するクロスモーダルトランスは,新しいクロスモーダルトランスコーダアーキテクチャと,自動表現学習のためのマルチスケール1次元畳み込みニューラルネットワークから構成される。
この設計に基づく睡眠ステージ分類器は,現在と同等かそれ以上に睡眠ステージ分類性能を達成でき,解釈可能性,パラメータ数を4倍削減し,現在と比べトレーニング時間を短縮した。
私たちのコードはhttps://github.com/Jathurshan0330/Cross-Modal-Transformerで利用可能です。
関連論文リスト
- ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - The Devil Is in the Details: An Efficient Convolutional Neural Network
for Transport Mode Detection [3.008051369744002]
トランスポートモード検出は、マルチモーダル信号が与えられたユーザのトランスポートモードを推測できるアルゴリズムを設計することを目的とした分類問題である。
小型で最適化されたモデルが、現在のディープモデルと同様に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-09-16T08:05:47Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。