Fugu-MT 論文翻訳(概要): Towards Interpretable Sleep Stage Classification Using Cross-Modal Transformers

論文の概要: Towards Interpretable Sleep Stage Classification Using Cross-Modal Transformers

arxiv url: http://arxiv.org/abs/2208.06991v3
Date: Fri, 24 Nov 2023 22:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 17:43:38.228807
Title: Towards Interpretable Sleep Stage Classification Using Cross-Modal Transformers
Title（参考訳）: クロスモーダルトランスを用いた解釈型睡眠ステージ分類に向けて
Authors: Jathurshan Pradeepkumar, Mithunjha Anandakumar, Vinith Kugathasan, Dhinesh Suntharalingham, Simon L. Kappel, Anjula C. De Silva and Chamira U. S. Edussooriya
Abstract要約: 本研究では,睡眠段階分類のためのトランスを用いたクロスモーダルトランスを提案する。本手法は,最先端の手法と比較して,パラメータ数とトレーニング時間を大幅に短縮する。
参考スコア（独自算出の注目度）: 6.023172243521307
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate sleep stage classification is significant for sleep health assessment. In recent years, several machine-learning based sleep staging algorithms have been developed , and in particular, deep-learning based algorithms have achieved performance on par with human annotation. Despite improved performance, a limitation of most deep-learning based algorithms is their black-box behavior, which have limited their use in clinical settings. Here, we propose a cross-modal transformer, which is a transformer-based method for sleep stage classification. The proposed cross-modal transformer consists of a novel cross-modal transformer encoder architecture along with a multi-scale one-dimensional convolutional neural network for automatic representation learning. Our method outperforms the state-of-the-art methods and eliminates the black-box behavior of deep-learning models by utilizing the interpretability aspect of the attention modules. Furthermore, our method provides considerable reductions in the number of parameters and training time compared to the state-of-the-art methods. Our code is available at https://github.com/Jathurshan0330/Cross-Modal-Transformer. A demo of our work can be found at https://bit.ly/Cross_modal_transformer_demo.
Abstract（参考訳）: 正確な睡眠ステージ分類は睡眠健康評価に重要である。近年、機械学習に基づく睡眠ステージリングアルゴリズムが開発され、特にディープラーニングベースのアルゴリズムは人間のアノテーションと同等のパフォーマンスを達成している。パフォーマンスの改善にもかかわらず、ディープラーニングベースのアルゴリズムの制限はブラックボックスの振る舞いであり、臨床環境での使用を制限する。本稿では,睡眠ステージ分類のためのトランスベース手法であるクロスモーダルトランスを提案する。提案するクロスモーダルトランスは,新しいクロスモーダルトランスエンコーダアーキテクチャと,自動表現学習のためのマルチスケール1次元畳み込みニューラルネットワークから構成される。本手法は最先端手法よりも優れており,アテンションモジュールの解釈可能性を利用したディープラーニングモデルのブラックボックス挙動を解消する。さらに,本手法は,最先端手法と比較してパラメータ数とトレーニング時間を大幅に短縮する。私たちのコードはhttps://github.com/Jathurshan0330/Cross-Modal-Transformerで利用可能です。私たちの作業のデモは https://bit.ly/Cross_modal_transformer_demo で確認できます。

関連論文リスト

A Hybrid Fully Convolutional CNN-Transformer Model for Inherently Interpretable Medical Image Classification [5.904095466127043]
医用画像分類のための完全畳み込み型CNN-Transformerアーキテクチャを提案する。我々のモデルはブラックボックスと解釈可能なモデルと比較して最先端の予測性能を実現する。
論文参考訳（メタデータ） (2025-04-11T12:15:22Z)
Context-Aware Deep Learning for Multi Modal Depression Detection [41.02897689721331]
マルチモーダル機械学習(ML)を用いた臨床面接からうつ病を自動的に検出するアプローチに焦点をあてる。本研究では,(1)テキストデータに対するトピックモデリングに基づくデータ拡張と,(2)音響特徴モデリングのための深部1次元畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。我々のディープ1D CNNとトランスフォーマーモデルはそれぞれ、オーディオとテキストのモダリティの最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-12-26T13:19:26Z)
ConvTransSeg: A Multi-resolution Convolution-Transformer Network for Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文参考訳（メタデータ） (2022-10-13T14:59:23Z)
Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。 CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。 HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文参考訳（メタデータ） (2022-03-31T11:18:41Z)
The Devil Is in the Details: An Efficient Convolutional Neural Network for Transport Mode Detection [3.008051369744002]
トランスポートモード検出は、マルチモーダル信号が与えられたユーザのトランスポートモードを推測できるアルゴリズムを設計することを目的とした分類問題である。小型で最適化されたモデルが、現在のディープモデルと同様に動作可能であることを示す。
論文参考訳（メタデータ） (2021-09-16T08:05:47Z)
nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。 nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2021-09-07T17:08:24Z)
Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。 Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文参考訳（メタデータ） (2021-08-26T04:34:33Z)
STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2021-07-15T02:53:11Z)
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文参考訳（メタデータ） (2021-05-12T09:30:26Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)
Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。 Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文参考訳（メタデータ） (2021-02-08T19:14:32Z)
Parameter Efficient Multimodal Transformers for Video Representation Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文参考訳（メタデータ） (2020-12-08T00:16:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。