論文の概要: Towards Interpretable Sleep Stage Classification Using Cross-Modal
Transformers
- arxiv url: http://arxiv.org/abs/2208.06991v3
- Date: Fri, 24 Nov 2023 22:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:43:38.228807
- Title: Towards Interpretable Sleep Stage Classification Using Cross-Modal
Transformers
- Title(参考訳): クロスモーダルトランスを用いた解釈型睡眠ステージ分類に向けて
- Authors: Jathurshan Pradeepkumar, Mithunjha Anandakumar, Vinith Kugathasan,
Dhinesh Suntharalingham, Simon L. Kappel, Anjula C. De Silva and Chamira U.
S. Edussooriya
- Abstract要約: 本研究では,睡眠段階分類のためのトランスを用いたクロスモーダルトランスを提案する。
本手法は,最先端の手法と比較して,パラメータ数とトレーニング時間を大幅に短縮する。
- 参考スコア(独自算出の注目度): 6.023172243521307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate sleep stage classification is significant for sleep health
assessment. In recent years, several machine-learning based sleep staging
algorithms have been developed , and in particular, deep-learning based
algorithms have achieved performance on par with human annotation. Despite
improved performance, a limitation of most deep-learning based algorithms is
their black-box behavior, which have limited their use in clinical settings.
Here, we propose a cross-modal transformer, which is a transformer-based method
for sleep stage classification. The proposed cross-modal transformer consists
of a novel cross-modal transformer encoder architecture along with a
multi-scale one-dimensional convolutional neural network for automatic
representation learning. Our method outperforms the state-of-the-art methods
and eliminates the black-box behavior of deep-learning models by utilizing the
interpretability aspect of the attention modules. Furthermore, our method
provides considerable reductions in the number of parameters and training time
compared to the state-of-the-art methods. Our code is available at
https://github.com/Jathurshan0330/Cross-Modal-Transformer. A demo of our work
can be found at https://bit.ly/Cross_modal_transformer_demo.
- Abstract(参考訳): 正確な睡眠ステージ分類は睡眠健康評価に重要である。
近年、機械学習に基づく睡眠ステージリングアルゴリズムが開発され、特にディープラーニングベースのアルゴリズムは人間のアノテーションと同等のパフォーマンスを達成している。
パフォーマンスの改善にもかかわらず、ディープラーニングベースのアルゴリズムの制限はブラックボックスの振る舞いであり、臨床環境での使用を制限する。
本稿では,睡眠ステージ分類のためのトランスベース手法であるクロスモーダルトランスを提案する。
提案するクロスモーダルトランスは,新しいクロスモーダルトランスエンコーダアーキテクチャと,自動表現学習のためのマルチスケール1次元畳み込みニューラルネットワークから構成される。
本手法は最先端手法よりも優れており,アテンションモジュールの解釈可能性を利用したディープラーニングモデルのブラックボックス挙動を解消する。
さらに,本手法は,最先端手法と比較してパラメータ数とトレーニング時間を大幅に短縮する。
私たちのコードはhttps://github.com/Jathurshan0330/Cross-Modal-Transformerで利用可能です。
私たちの作業のデモは https://bit.ly/Cross_modal_transformer_demo で確認できます。
関連論文リスト
- ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - The Devil Is in the Details: An Efficient Convolutional Neural Network
for Transport Mode Detection [3.008051369744002]
トランスポートモード検出は、マルチモーダル信号が与えられたユーザのトランスポートモードを推測できるアルゴリズムを設計することを目的とした分類問題である。
小型で最適化されたモデルが、現在のディープモデルと同様に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-09-16T08:05:47Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。