論文の概要: Twins-PainViT: Towards a Modality-Agnostic Vision Transformer Framework for Multimodal Automatic Pain Assessment using Facial Videos and fNIRS
- arxiv url: http://arxiv.org/abs/2407.19809v1
- Date: Mon, 29 Jul 2024 09:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:35:40.306674
- Title: Twins-PainViT: Towards a Modality-Agnostic Vision Transformer Framework for Multimodal Automatic Pain Assessment using Facial Videos and fNIRS
- Title(参考訳): Twins-PainViT:顔画像とfNIRSを用いたマルチモーダル自動痛み評価のためのモダリティ非依存型視覚変換フレームワーク
- Authors: Stefanos Gkikas, Manolis Tsiknakis,
- Abstract要約: The First Multimodal Sensing Grand Challenge for Next-Gen Pain Assessment (AI4PAIN)に応募した。
提案するマルチモーダルフレームワークは,顔ビデオとfNIRSを利用して,ドメイン固有モデルの必要性を軽減し,モダリティに依存しないアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.9668407688201359
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automatic pain assessment plays a critical role for advancing healthcare and optimizing pain management strategies. This study has been submitted to the First Multimodal Sensing Grand Challenge for Next-Gen Pain Assessment (AI4PAIN). The proposed multimodal framework utilizes facial videos and fNIRS and presents a modality-agnostic approach, alleviating the need for domain-specific models. Employing a dual ViT configuration and adopting waveform representations for the fNIRS, as well as for the extracted embeddings from the two modalities, demonstrate the efficacy of the proposed method, achieving an accuracy of 46.76% in the multilevel pain assessment task.
- Abstract(参考訳): 自動鎮痛評価は、医療の進歩と痛み管理戦略の最適化に重要な役割を果たす。
The First Multimodal Sensing Grand Challenge for Next-Gen Pain Assessment (AI4PAIN)に応募した。
提案するマルチモーダルフレームワークは,顔ビデオとfNIRSを利用して,ドメイン固有モデルの必要性を軽減し,モダリティに依存しないアプローチを提案する。
両ViT構成を採用し,fNIRSの波形表現と抽出した2つのモードの埋め込みを併用することにより,多段階の痛み評価タスクにおいて46.76%の精度を達成し,提案手法の有効性を実証する。
関連論文リスト
- MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Transformer with Leveraged Masked Autoencoder for video-based Pain Assessment [11.016004057765185]
我々は、トランスフォーマーに基づくディープラーニングモデルにおいて、顔画像解析を用いて、痛み認識を強化する。
強力なMasked AutoencoderとTransformersベースの分類器を組み合わせることで,表現とマイクロ表現の両方を通じて痛みレベルインジケータを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-08T13:14:03Z) - Dual-Domain CLIP-Assisted Residual Optimization Perception Model for Metal Artifact Reduction [9.028901322902913]
CT(Computed tomography)画像における金属遺物は,正確な臨床診断に重要な課題である。
深層学習に基づくアプローチ、特に生成モデルは、金属人工物還元(MAR)のために提案されている。
論文 参考訳(メタデータ) (2024-08-14T02:37:26Z) - CriDiff: Criss-cross Injection Diffusion Framework via Generative Pre-train for Prostate Segmentation [60.61972883059688]
CridiffはCrisscross Injection Strategy(CIS)とGenerative Pre-train(GP)アプローチによる2段階の機能注入フレームワークである。
CISでは,複数レベルのエッジ特徴と非エッジ特徴を効果的に学習するために,並列コンディショナーを2つ提案した。
GPアプローチは、追加パラメータを追加することなく、画像特徴と拡散モデルとの矛盾を緩和する。
論文 参考訳(メタデータ) (2024-06-20T10:46:50Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - MIST GAN: Modality Imputation Using Style Transfer for MRI [0.49172272348627766]
我々は既存のMRモードから欠落したMRモダリティを,スタイル転送を用いた計算問題として定式化する。
複数対1のマッピングにより、ターゲット画像を生成する際に、ドメイン固有のスタイルに対応するネットワークをモデル化する。
われわれのモデルはBraTS'18データセットでテストされ、その結果はビジュアルメトリクスの点で最先端のものと同等である。
論文 参考訳(メタデータ) (2022-02-21T17:50:40Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。