論文の概要: Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion and Large Language Models
- arxiv url: http://arxiv.org/abs/2512.04425v1
- Date: Thu, 04 Dec 2025 03:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.974277
- Title: Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion and Large Language Models
- Title(参考訳): マルチモーダルRGB-Dフュージョンと大規模言語モデルを用いた説明可能なパーキンソン病歩行認識
- Authors: Manar Alnaasan, Md Selim Sarowar, Sungho Kim,
- Abstract要約: 本稿では、Parkinsonian Gaitパターンを認識するために、RGBとDepth(RGB-D)データを統合した説明可能なマルチモーダルフレームワークを提案する。
本研究は,多モーダル特徴学習と言語に基づく解釈可能性を組み合わせることで,視覚認識と臨床的理解のギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 6.2676602262188625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and interpretable gait analysis plays a crucial role in the early detection of Parkinsons disease (PD),yet most existing approaches remain limited by single-modality inputs, low robustness, and a lack of clinical transparency. This paper presents an explainable multimodal framework that integrates RGB and Depth (RGB-D) data to recognize Parkinsonian gait patterns under realistic conditions. The proposed system employs dual YOLOv11-based encoders for modality-specific feature extraction, followed by a Multi-Scale Local-Global Extraction (MLGE) module and a Cross-Spatial Neck Fusion mechanism to enhance spatial-temporal representation. This design captures both fine-grained limb motion (e.g., reduced arm swing) and overall gait dynamics (e.g., short stride or turning difficulty), even in challenging scenarios such as low lighting or occlusion caused by clothing. To ensure interpretability, a frozen Large Language Model (LLM) is incorporated to translate fused visual embeddings and structured metadata into clinically meaningful textual explanations. Experimental evaluations on multimodal gait datasets demonstrate that the proposed RGB-D fusion framework achieves higher recognition accuracy, improved robustness to environmental variations, and clear visual-linguistic reasoning compared with single-input baselines. By combining multimodal feature learning with language-based interpretability, this study bridges the gap between visual recognition and clinical understanding, offering a novel vision-language paradigm for reliable and explainable Parkinsons disease gait analysis. Code:https://github.com/manaralnaasan/RGB-D_parkinson-LLM
- Abstract(参考訳): 正確な歩行分析は、パーキンソン病(PD)の早期発見において重要な役割を担っているが、既存のほとんどのアプローチは、単一モダリティ入力、低ロバスト性、臨床透明性の欠如によって制限されている。
本稿では,実環境下でのParkinsonianの歩行パターンを認識するために,RGBとDepth(RGB-D)データを統合したマルチモーダルフレームワークを提案する。
提案システムでは,2つのYOLOv11ベースのエンコーダをモダリティ固有の特徴抽出に使用し,次いでマルチスケール局所グラフ抽出 (MLGE) モジュールと空間空間的表現を高めるクロス空間ネック融合機構を用いる。
このデザインは、低照度や衣服による閉塞といった困難なシナリオであっても、細粒な手足の動き(例えば、腕のスイングの減少)と全体的な歩行動態(例えば、短いストライドや旋回困難)の両方を捉えている。
解釈可能性を確保するために,凍結型大規模言語モデル(LLM)が組み込まれ,融合した視覚的埋め込みと構造化メタデータを臨床的に意味のあるテキスト記述に変換する。
マルチモーダル歩行データセットの実験的評価により,提案したRGB-D融合フレームワークは,認識精度の向上,環境変動に対する堅牢性の向上,単一入力ベースラインと比較して視覚言語的推論の明確化を実現している。
本研究は,多モーダル特徴学習と言語に基づく解釈可能性を組み合わせることで,視覚認識と臨床理解のギャップを埋め,信頼性と説明可能なパーキンソン病歩行分析のための新しい視覚言語パラダイムを提供する。
コード:https://github.com/manaralnaasan/RGB-D_parkinson-LLM
関連論文リスト
- Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation [12.226029763256962]
VLM(Vision-Language Models)による放射線学レポート生成は、ドキュメントの負担軽減、レポートの一貫性の向上、臨床導入の加速を約束する。
既存の研究では、解釈可能性と精度を別々の目的として扱い、概念に基づく説明可能性技術は透明性に重点を置いている。
本稿では,視覚表現を解釈可能な臨床概念に分解する統合フレームワークであるCEMRAG(Concept-Enhanced Multimodal RAG)を提案する。
論文 参考訳(メタデータ) (2026-02-17T15:18:07Z) - Uncertainty-Aware Vision-Language Segmentation for Medical Imaging [12.545486211087791]
医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
論文 参考訳(メタデータ) (2026-02-16T06:27:51Z) - Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology [46.83014413674925]
STAMPは空間的トランスクリプトミクスを付加したマルチモーダルな病理表現学習フレームワークである。
本研究は、自己教師型遺伝子誘導訓練が、病理画像表現の学習に堅牢でタスクに依存しない信号を提供することを示す。
6つのデータセットと4つの下流タスクにまたがってSTAMPを検証する。
論文 参考訳(メタデータ) (2026-02-15T00:59:13Z) - Cross-Linguistic Persona-Driven Data Synthesis for Robust Multimodal Cognitive Decline Detection [20.599682298329213]
我々は、制御可能なゼロショットマルチモーダルデータ合成とChain-of-Thought deductionファインチューニングを統合する新しいフレームワークであるSynCogを紹介する。
この生成パラダイムは、様々な言語にまたがる臨床コーパスの迅速でゼロショット展開を可能にする。
ADReSSとADReSSoベンチマークの実験は、限られた臨床データを合成表現型で増強することで、競争力のある診断性能が得られることを示した。
論文 参考訳(メタデータ) (2026-02-08T14:10:05Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Towards Stable Cross-Domain Depression Recognition under Missing Modalities [46.292478012586066]
うつ病は自殺を含む深刻な公衆衛生上のリスクを生じさせ、タイムリーでスケーラブルなスクリーニングの緊急性を強調している。
マルチモーダル大言語モデル(SCD-MLLM)に基づく安定なドメイン間圧縮認識のための統合フレームワークを提案する。
このフレームワークは、様々なソースから収集された不均一なうつ病関連データの統合と処理をサポートする。
論文 参考訳(メタデータ) (2025-12-06T14:19:57Z) - Self-Supervised Cross-Encoder for Neurodegenerative Disease Diagnosis [6.226851122403944]
縦型MRIスキャンにおける時間的連続性を利用した自己監督型クロスエンコーダフレームワークを提案する。
このフレームワークは、学習した表現を2つのコンポーネントに分解する: 静的表現は、対照的な学習によって制約され、安定した解剖学的特徴を捉え、動的表現は、時間的変化を反映する入力漸進正規化によってガイドされる。
アルツハイマー病神経画像イニシアチブデータセットの実験結果から,本手法は分類精度が向上し,解釈性が向上することが示された。
論文 参考訳(メタデータ) (2025-09-09T11:52:24Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - MMLNB: Multi-Modal Learning for Neuroblastoma Subtyping Classification Assisted with Textual Description Generation [1.8947479010393964]
MMLNBは、病理画像と生成されたテキスト記述を統合して、分類精度と解釈可能性を向上させるマルチモーダル学習モデルである。
本研究は,神経芽腫サブタイプ分類における信頼性と解釈可能性を高める,スケーラブルなAI駆動型デジタル病理フレームワークを作成する。
論文 参考訳(メタデータ) (2025-03-17T08:38:46Z) - Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation [30.697291934309206]
医療機器の欠如とデータのプライバシーに関する懸念により、マルチモーダルデータは現実世界のアプリケーションではまれである。
伝統的な深層学習法は一般に、潜在空間における表現の学習によってこれらの問題に対処する。
著者らはEssence-Point and Disentangle Representation Learning (EDRL)戦略を提案している。
論文 参考訳(メタデータ) (2025-03-07T10:58:38Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。