論文の概要: Seizure-Semiology-Suite (S3): A Clinically Multimodal Dataset, Benchmark, and Models for Seizure Semiology Understanding
- arxiv url: http://arxiv.org/abs/2605.21852v1
- Date: Thu, 21 May 2026 00:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.041884
- Title: Seizure-Semiology-Suite (S3): A Clinically Multimodal Dataset, Benchmark, and Models for Seizure Semiology Understanding
- Title(参考訳): せずれ・セミロジー・スタイト(S3) : セズーア・セミロジー理解のための臨床用マルチモーダルデータセット,ベンチマーク,モデル
- Authors: Lina Zhang, Tonmoy Monsoor, Peizheng Li, Jiarui Cui, Xinyi Peng, Chong Han, Prateik Sinha, Siyuan Dai, Jessica Nichole Pasqua, Colin M McCrimmon, Weiting Liu, Hailey Marie Miranda, Bing Hu, Xiangting Wu, Tengyou Xu, Chunhan Li, Jiaye Tian, Jiarui Tang, Detao Ma, Lingye Kong, Junnan Lyu, Jungang Li, Yan Zan, Junhua Huang, Rajarshi Mazumder, Vwani Roychowdhury,
- Abstract要約: Seizure-Semiology-Suiteは、微細で構造化されたてんかんのセミロジー理解のための臨床基盤となるデータセットである。
データセットには、20438AE定義のセミロジカルな特徴をカバーする35,000以上の高密度ラベルで注釈付けされた438個の発作ビデオが含まれている。
低レベルの視覚知覚から時間的シークエンシング、物語レポート生成、発作診断に至るまで、MLLMを体系的に評価する7つの階層型ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 6.3004976146416025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in general video understanding, their capacity to interpret involuntary, and spatio-temporally evolving pathologic motor behaviors such as seizure semiology remains largely untested. To address this gap, we introduce Seizure-Semiology-Suite, a clinically grounded dataset and benchmark for fine-grained, structured seizure semiology understanding. The dataset includes 438 seizure videos annotated with over 35,000 dense labels covering 20 ILAE-defined semiological features. Building on this dataset, we propose a seven-task hierarchical benchmark that systematically evaluates MLLMs from low-level visual perception to temporal sequencing, narrative report generation, and seizure diagnosis. To enable clinically meaningful evaluation of generated reports, we further introduce the Report Quality Index for Seizure Semiology (Seizure-RQI). Extensive baselines across 11 open-weight MLLMs reveal systematic weaknesses in laterality reasoning, temporal localization, symptom sequencing, and clinically faithful reporting. We show that seizure-specific fine-tuning substantially improves performance across tasks, and that a two-stage neuro-symbolic framework achieves an F1 score of 0.96 on epileptic versus non-epileptic seizure classification. Seizure-Semiology-Suite establishes a rigorous benchmark for evaluating multimodal models in safety-critical medical video understanding and guides the development of clinically reliable, domain-adaptive multimodal intelligence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的なビデオ理解において顕著な習熟性を示しているが、不随意の解釈能力や、発作性セミロジーのような時空間的に進化する病的運動の挙動はほとんど検証されていない。
このギャップに対処するために、臨床基盤のデータセットと、微細で構造化された発作セミロジー理解のためのベンチマークであるSezure-Semiology-Suiteを紹介した。
データセットには、ILAEが定義した20のセミロジカルな特徴をカバーする35,000以上の高密度ラベルが注釈付けされた438の発作ビデオが含まれている。
このデータセットに基づいて,低レベルの視覚知覚から時間的シークエンシング,物語レポート生成,発作診断に至るまで,MLLMを体系的に評価する7タスク階層型ベンチマークを提案する。
また, 報告の臨床的意義を評価するために, 清水神学報告品質指標(Seizure-RQI)を新たに導入した。
11個のオープンウェイトMLLMにまたがる広範囲なベースラインは、側方性推論、時間的局所化、症状シークエンシング、臨床的に忠実な報告の体系的な弱点を明らかにしている。
発作特異的微調整はタスク間のパフォーマンスを大幅に改善し、2段階のニューロシンボリック・フレームワークはてんかんと非てんかん性発作の分類において0.96のスコアを達成している。
Seizure-Semiology-Suiteは、安全クリティカルな医療ビデオ理解におけるマルチモーダルモデルの評価のための厳格なベンチマークを確立し、臨床に信頼性のあるドメイン適応型マルチモーダルインテリジェンスの開発を導く。
関連論文リスト
- Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation [1.9655003184977389]
臨床画像コホートであるtextscFOR2107 と textscOASIS-3 の2値分類により,12個のオープンウェイト視覚言語モデル(VLM)を評価した。
これらの条件下では、より小さなVLMは、ニューロイメージングの文脈を導入すると最大58%のF1のゲインを示し、蒸留されたモデルは、桁違いに大きいものと競合するようになる。
論文 参考訳(メタデータ) (2026-03-30T12:58:10Z) - LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases [0.0]
LeafBenchは、植物病の理解におけるビジョン・ランゲージ・モデル(VLM)の機能を評価するために開発された視覚的質問応答ベンチマークである。
このデータセットは、97の病気のクラスにまたがる186,000の葉のデジタルイメージとメタデータを組み合わせ、13,950の質問応答ペアを生成する。
LeafBenchデータセット上で12の最先端のVLMをベンチマークした結果,その疾患理解能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2026-02-14T08:10:27Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Transfer Learning of Deep Spatiotemporal Networks to Model Arbitrarily
Long Videos of Seizures [58.720142291102135]
てんかん患者の治療には, てんかんセミノロジーの詳細な分析が重要である。
本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせた新しいアーキテクチャであるGESTURESを紹介する。
本稿では,HARデータセットでトレーニングしたSTCNNとRNNを組み合わせて,任意の長さの発作映像を正確に表現できることを示す。
論文 参考訳(メタデータ) (2021-06-22T18:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。