論文の概要: A Fine-Grained Attention and Geometric Correspondence Model for Musculoskeletal Risk Classification in Athletes Using Multimodal Visual and Skeletal Features
- arxiv url: http://arxiv.org/abs/2509.05913v1
- Date: Sun, 07 Sep 2025 04:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.773751
- Title: A Fine-Grained Attention and Geometric Correspondence Model for Musculoskeletal Risk Classification in Athletes Using Multimodal Visual and Skeletal Features
- Title(参考訳): マルチモーダル視覚・骨格的特徴を用いたスポーツ選手の筋骨格危険分類のための微粒な注意と幾何学的対応モデル
- Authors: Md. Abdur Rahman, Mohaimenul Azam Khan Raiaan, Tamanna Shermin, Md Rafiqul Islam, Mukhtar Hussain, Sami Azam,
- Abstract要約: 筋骨格障害はアスリートに重大なリスクをもたらし、早期にリスクを評価することは予防に重要である。
本研究では,視覚的および骨格的座標に基づく特徴を用いた筋骨格リスクの分類を目的とした,新しいマルチモーダル深層学習フレームワークであるViSK-GATを提案する。
- 参考スコア(独自算出の注目度): 3.0826008596787253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Musculoskeletal disorders pose significant risks to athletes, and assessing risk early is important for prevention. However, most existing methods are designed for controlled settings and fail to reliably assess risk in complex environments due to their reliance on a single type of data. This research proposes ViSK-GAT (Visual-Skeletal Geometric Attention Transformer), a novel multimodal deep learning framework designed to classify musculoskeletal risk using visual and skeletal coordinate-based features. In addition, a custom multimodal dataset is constructed by combining visual data and skeletal coordinates for risk assessment. Each sample is labeled into eight risk categories based on the Rapid Entire Body Assessment system. ViSK-GAT combines a Residual Block with a Lightweight Transformer Block to learn spatial and temporal dependencies jointly. It incorporates two novel modules: the Fine-Grained Attention Module (FGAM), which enables precise inter-modal feature refinement through cross-attention between visual and skeletal inputs, and the Multimodal Geometric Correspondence Module (MGCM), which enhances cross-modal coherence by aligning image features with coordinate-based representations. ViSK-GAT achieved strong performance with validation and test accuracies of 93.55\% and 93.89\%, respectively; a precision of 93.86\%; an F1 score of 93.85\%; and Cohen's Kappa and Matthews Correlation Coefficient of 93\%. The regression results also indicated a low Root Mean Square Error of the predicted probability distribution of 0.1205 and a corresponding Mean Absolute Error of 0.0156. Compared to nine popular transfer learning backbones, ViSK-GAT consistently outperformed previous methods. The ViSK-GAT model advances artificial intelligence implementation and application, transforming musculoskeletal risk classification and enabling impactful early interventions in sports.
- Abstract(参考訳): 筋骨格障害はアスリートに重大なリスクをもたらし、早期にリスクを評価することは予防に重要である。
しかし、既存のほとんどの手法は、制御された設定のために設計されており、単一のタイプのデータに依存するため、複雑な環境におけるリスクを確実に評価することができない。
本研究では,視覚的および骨格的座標に基づく特徴を用いた筋骨格リスクの分類を目的とした,新しいマルチモーダルディープラーニングフレームワークであるViSK-GATを提案する。
さらに、リスク評価のための視覚データと骨格座標を組み合わせることで、カスタムマルチモーダルデータセットを構築する。
各サンプルは,Rapid Entire Body Assessmentシステムに基づいて,8つのリスクカテゴリにラベル付けされる。
ViSK-GATは、Residual BlockとLightweight Transformer Blockを組み合わせて、空間的および時間的依存関係を共同で学習する。
Fine-Grained Attention Module (FGAM) は視覚入力と骨格入力の相互アテンションによる正確なモーダル間特徴改善を可能にするモジュールであり、Multimodal Geometric Cor correspondingence Module (MGCM) は画像特徴と座標ベース表現との整合性を強化するモジュールである。
ViSK-GATは、それぞれ93.55\%と93.89\%、精度93.86\%、F1スコア93.85\%、コーエンのカッパとマシューズ相関係数93\%の検証と試験の精度で高い性能を達成した。
また, 予測確率分布0.1205のルート平均角誤差と, 対応する平均絶対誤差0.0156のルート平均角誤差も示した。
ViSK-GATは、9つの人気のある転送学習バックボーンと比較して、従来手法よりも一貫して優れていた。
ViSK-GATモデルは、人工知能の実装と応用を進歩させ、筋肉骨格のリスク分類を変革し、スポーツにおける影響のある早期介入を可能にする。
関連論文リスト
- PathMoE: Interpretable Multimodal Interaction Experts for Pediatric Brain Tumor Classification [30.58342408480846]
PathMoEは、H&Eスライド、病理報告、核レベルセルグラフを統合する、解釈可能なマルチモーダルフレームワークである。
内科的脳腫瘍データセットと外部TGAデータセットの2つのデータセット固有の分類タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-02T07:17:44Z) - scMRDR: A scalable and flexible framework for unpaired single-cell multi-omics data integration [53.683726781791385]
単一セルマルチオミクス(ScMRDR)と呼ばれるスケーラブルでフレキシブルな生成フレームワークを導入する。
本手法は, バッチ補正, モダリティアライメント, 生体信号保存の観点から, ベンチマークデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T21:28:39Z) - Scanner-Agnostic MRI Harmonization via SSIM-Guided Disentanglement [0.0]
3次元T1強調脳MRIのための画像ベース調和フレームワークを提案する。
このモデルは、生物学的に意味のある特徴を保存するために、構造的類似度指数(SSIM)に基づく識別可能な損失を組み込む。
視覚的比較,ボクセル強度分布,SSIMに基づく測定により,高調波画像が取得設定間で強い整合性を示した。
論文 参考訳(メタデータ) (2025-10-24T23:19:02Z) - Improved mmFormer for Liver Fibrosis Staging via Missing-Modality Compensation [8.687370165870613]
本稿では,mmFormerアーキテクチャをベースとしたマルチモーダルMRI分類モデルを提案する。
本手法は,Real-world 医療画像の総合解析・計算テストセット(CARE 2025 Challenge)に基づいて評価する。
In-distribution vendors におけるCirrhosis Detection と Substantial Fibrosis Detection では,66.67% と74.17% の精度を示し,AUC では 71.73% と68.48% の精度を示した。
論文 参考訳(メタデータ) (2025-09-19T21:31:05Z) - 2D Ultrasound Elasticity Imaging of Abdominal Aortic Aneurysms Using Deep Neural Networks [0.5249805590164902]
腹部大動脈瘤 (AAA) は破裂の可能性があるため, 臨床的リスクが高い。
2次元超音波を用いたAAAの弾力性イメージングのためのディープラーニングに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-25T21:42:54Z) - MS-CLR: Multi-Skeleton Contrastive Learning for Human Action Recognition [49.91188543847175]
Multi-Skeleton Contrastive Learning (MS-CLR)は、同じシーケンスから抽出された複数のスケルトン規則間でポーズ表現を整列するフレームワークである。
MS-CLRは、強いシングルスケルトンコントラスト学習ベースラインよりも一貫してパフォーマンスを向上する。
マルチスケルトンアンサンブルはパフォーマンスをさらに向上させ、両方のデータセットに新たな最先端結果を設定する。
論文 参考訳(メタデータ) (2025-08-20T17:58:03Z) - A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - HANS-Net: Hyperbolic Convolution and Adaptive Temporal Attention for Accurate and Generalizable Liver and Tumor Segmentation in CT Imaging [1.3149714289117207]
腹部CT像における肝・腫瘍の正確なセグメンテーションは確実な診断と治療計画に重要である。
ニューラル表現とシナプティック・プラスティック・ネットワーク(HANS-Net)を用いたハイパーボリック・コンボリューションの導入
HANS-Netは、階層的幾何表現のための双曲的畳み込み、マルチスケールテクスチャ学習のためのウェーブレットインスパイアされた分解モジュール、暗黙の神経表現分岐を組み合わせた。
論文 参考訳(メタデータ) (2025-07-15T13:56:37Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Learning Generalizable Features for Tibial Plateau Fracture Segmentation Using Masked Autoencoder and Limited Annotations [9.62712439690871]
我々は,CTにおける正確なTPFセグメンテーションのためのマスク付きオートエンコーダ(MAE)に基づく効果的なトレーニング戦略を提案する。
本手法は,大域的な骨格構造と,ラベルなしデータからのき裂の微細化,およびラベル付きデータの微細化にMAEプリトレーニングを利用する。
実験結果から,本手法は半教師付き手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-02-05T03:44:52Z) - Clinical Utility of Foundation Segmentation Models in Musculoskeletal MRI: Biomarker Fidelity and Predictive Outcomes [0.0]
筋骨格 (MSK) MRI データセットを用いて, 広く用いられている3つのセグメンテーションモデル (SAM, SAM2, MedSAM) を評価した。
本フレームワークは,ゼロショットと微調整の両方のパフォーマンスを評価し,セグメンテーション精度,画像プロトコル間の一般化性,抽出された量的バイオマーカーの信頼性に着目した。
論文 参考訳(メタデータ) (2025-01-23T04:41:20Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - MS-MANO: Enabling Hand Pose Tracking with Biomechanical Constraints [50.61346764110482]
筋骨格系と学習可能なパラメトリックハンドモデルMANOを統合し,MS-MANOを作成する。
このモデルは骨格系を駆動する筋肉と腱の力学をエミュレートし、結果として生じるトルク軌跡に生理学的に現実的な制約を与える。
また,マルチ層パーセプトロンネットワークによる初期推定ポーズを改良する,ループ式ポーズ改善フレームワークBioPRを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:18:18Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multiple Instance Ensembling For Paranasal Anomaly Classification In The
Maxillary Sinus [46.1292414445895]
副鼻腔奇形は幅広い形態学的特徴を持つ。
副鼻腔異常分類への現在のアプローチは、一度に1つの異常を特定することに制約されている。
3次元畳み込みニューラルネットワーク(CNN)を用いて正常上顎骨(MS)とMSをポリープや嚢胞で分類する可能性を検討した。
論文 参考訳(メタデータ) (2023-03-31T09:23:27Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。