論文の概要: Can Multimodal Large Language Models Understand Pathologic Movements? A Pilot Study on Seizure Semiology
- arxiv url: http://arxiv.org/abs/2605.03352v1
- Date: Tue, 05 May 2026 04:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.762042
- Title: Can Multimodal Large Language Models Understand Pathologic Movements? A Pilot Study on Seizure Semiology
- Title(参考訳): マルチモーダル大言語モデルは病理運動に理解できるか? : 静置神学の試行的研究
- Authors: Lina Zhang, Tonmoy Monsoor, Mehmet Efe Lorasdagi, Prateik Sinha, Chong Han, Peizheng Li, Yuan Wang, Jessica Pasqua, Colin McCrimmon, Rajarshi Mazumder, Vwani Roychowdhury,
- Abstract要約: このパイロットスタディは、発作ビデオにおける病理的動きの自動認識におけるMLLMの能力を評価する。
当科における最新のMLLMのゼロショット性能を,90例の臨床てんかん記録の20例に比較検討した。
- 参考スコア(独自算出の注目度): 6.150572757901948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated robust capabilities in recognizing everyday human activities, yet their potential for analyzing clinically significant involuntary movements in neurological disorders remains largely unexplored. This pilot study evaluates the capability of MLLMs for automated recognition of pathological movements in seizure videos. We assessed the zero-shot performance of state-of-the-art MLLMs on 20 ILAE-defined semiological features across 90 clinical seizure recordings. MLLMs outperformed fine-tuned Convolutional Neural Network (CNN) and Vision Transformer (ViT) baseline models on 13 of 18 features without task-specific training, demonstrating particular strength in recognizing salient postural and contextual features while struggling with subtle, high-frequency movements. Feature-targeted signal enhancement (facial cropping, pose estimation, audio denoising) improved performance on 10 of 20 features. Expert evaluation showed that 94.3 percent of MLLM-generated explanations for correctly predicted cases achieved at least 60 percent faithfulness scores, aligning with epileptologist reasoning. These findings demonstrate the potential of adapting general-purpose MLLMs for specialized clinical video analysis through targeted preprocessing strategies, offering a path toward interpretable, efficient diagnostic assistance. Our code is publicly available at https://github.com/LinaZhangUCLA/PathMotionMLLM.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、日常的な人間の活動を認識するための頑健な能力を示したが、神経疾患における臨床的に重要な不随意運動を解析する可能性はほとんど未解明のままである。
このパイロットスタディは、発作ビデオにおける病理的動きの自動認識におけるMLLMの能力を評価する。
当科における最新のMLLMのゼロショット性能を,90例の臨床てんかん記録の20例に比較検討した。
MLLMはタスク固有のトレーニングを伴わず、微調整された畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のベースラインモデルよりも優れており、微妙で高周波な動きに苦労しながら、姿勢や文脈の特徴を認識する上で特に強みを示している。
特徴目標信号強調(顔トリミング,ポーズ推定,音声復調)は,20機能中10機能で改善された。
専門家による評価では、MLLMが生成した正しく予測された症例の説明の94.3%が少なくとも60%の忠実度スコアを達成し、てんかん専門医の推論と一致している。
これらの結果から, 汎用MLLMを対象前処理戦略を通じて, 臨床ビデオ解析に応用し, 解釈可能かつ効率的な診断支援への道筋を示す可能性が示唆された。
私たちのコードはhttps://github.com/LinaZhangUCLA/PathMotionMLLMで公開されています。
関連論文リスト
- Lost in the Hype: Revealing and Dissecting the Performance Degradation of Medical Multimodal Large Language Models in Image Classification [14.247959730104085]
マルチモーダル大言語モデル(MLLM)は、医療画像解析の分野で前例のない応用の波を引き起こしている。
しかし、医学画像分類では、最先端の医療MLLMは従来のディープラーニングモデルと比べて一貫して性能が劣っている。
本稿では、3つの代表的な画像分類データセットにまたがる14のオープンソース医療MLLMについて広範な実験を行った。
論文 参考訳(メタデータ) (2026-04-09T15:07:26Z) - How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images [16.362951636873248]
MLLM(Generalist Multimodal Large Language Model)は、様々な視覚言語タスクにおいて、優れたパフォーマンスを実現している。
しかし、特に一般化が重要となるゼロショット環境での医療タスクにおけるパフォーマンスは、依然として最適以下である。
本稿では,最先端医療MLLMの視覚的基盤機能に関する先駆的な研究について述べる。
論文 参考訳(メタデータ) (2026-03-15T10:46:27Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models [43.46006663176283]
本研究は,種々の摂動が医療MLLMに与える影響を系統的に分析する。
視覚的モダリティのために,MLLMの視覚エンコーダを利用してノイズパターンを識別する摂動認識デノナイジング(PDC)を提案する。
そこで本研究では,MLLMの自己評価機能を活用し,ノイズの多いテキストを精査するセルフ・インスタンス・マルチエージェント・システム(SMS)を設計する。
論文 参考訳(メタデータ) (2025-12-26T10:23:30Z) - NeuroABench: A Multimodal Evaluation Benchmark for Neurosurgical Anatomy Identification [56.133469598652624]
MLLM(Multimodal Large Language Models)は、外科的ビデオ理解において大きな可能性を秘めている。
Neurosurgical Anatomy Benchmark (NeuroABench)は、神経外科領域における解剖学的理解を評価するために明示的に作成された最初のマルチモーダルベンチマークである。
NeuroABenchは89の異なる手順をカバーする9時間の注釈付き神経外科ビデオで構成されている。
論文 参考訳(メタデータ) (2025-12-07T17:00:25Z) - BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities [61.173773299032746]
身体能力とは、エージェントが物理的世界を理解し、理解し、相互作用する一連の基本的な能力を指す。
我々は,原子エンボディド能力のMLLMを評価する,包括的できめ細かなベンチマークであるBEARを紹介する。
BEARは、低レベルポインティング、軌跡理解、空間的推論、高レベルプランニングといったタスクを含む、14のドメインにまたがる4,469のインターリーブイメージビデオテキストエントリで構成されている。
我々は,MLLM知覚,3D理解,計画能力を強化するために,事前学習された視覚モデルを統合するマルチモーダル・コンバータブルエージェントであるBEAR-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:18:36Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models [25.413601452403213]
LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。
LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T22:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。