論文の概要: EEG-VLM: A Hierarchical Vision-Language Model with Multi-Level Feature Alignment and Visually Enhanced Language-Guided Reasoning for EEG Image-Based Sleep Stage Prediction
- arxiv url: http://arxiv.org/abs/2511.19155v1
- Date: Mon, 24 Nov 2025 14:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.248325
- Title: EEG-VLM: A Hierarchical Vision-Language Model with Multi-Level Feature Alignment and Visually Enhanced Language-Guided Reasoning for EEG Image-Based Sleep Stage Prediction
- Title(参考訳): EEG-VLM:脳波画像に基づく睡眠ステージ予測のための多レベル特徴調整と言語誘導推論を用いた階層型視覚言語モデル
- Authors: Xihe Qiu, Gengchen Ma, Haoyu Wang, Chen Zhan, Xiaoyu Tan, Shuo Li,
- Abstract要約: 脳波に基づく睡眠ステージ分類のための多段階特徴アライメントと言語誘導推論を統合した階層型視覚言語フレームワークであるEEG-VLMを提案する。
実験により,脳波を用いた睡眠段階分類において,VLMの精度と解釈性の両方が有意に向上することが確認された。
- 参考スコア(独自算出の注目度): 17.251077744298808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sleep stage classification based on electroencephalography (EEG) is fundamental for assessing sleep quality and diagnosing sleep-related disorders. However, most traditional machine learning methods rely heavily on prior knowledge and handcrafted features, while existing deep learning models still struggle to jointly capture fine-grained time-frequency patterns and achieve clinical interpretability. Recently, vision-language models (VLMs) have made significant progress in the medical domain, yet their performance remains constrained when applied to physiological waveform data, especially EEG signals, due to their limited visual understanding and insufficient reasoning capability. To address these challenges, we propose EEG-VLM, a hierarchical vision-language framework that integrates multi-level feature alignment with visually enhanced language-guided reasoning for interpretable EEG-based sleep stage classification. Specifically, a specialized visual enhancement module constructs high-level visual tokens from intermediate-layer features to extract rich semantic representations of EEG images. These tokens are further aligned with low-level CLIP features through a multi-level alignment mechanism, enhancing the VLM's image-processing capability. In addition, a Chain-of-Thought (CoT) reasoning strategy decomposes complex medical inference into interpretable logical steps, effectively simulating expert-like decision-making. Experimental results demonstrate that the proposed method significantly improves both the accuracy and interpretability of VLMs in EEG-based sleep stage classification, showing promising potential for automated and explainable EEG analysis in clinical settings.
- Abstract(参考訳): 脳波(EEG)に基づく睡眠段階分類は、睡眠の質を評価し、睡眠関連疾患を診断するための基礎となる。
しかし、従来の機械学習手法の多くは、事前の知識と手工芸的な特徴に大きく依存しているが、既存のディープラーニングモデルは、細かな時間周波数パターンを共同で取得し、臨床の解釈可能性を達成するのに苦慮している。
近年,視覚言語モデル (VLM) は医学領域において大きな進歩を遂げているが, 視覚的理解や推論能力の不足により, 生理的波形データ, 特に脳波信号に適用した場合の性能に制約が課されている。
これらの課題に対処するため,脳波に基づく睡眠ステージ分類のための多段階特徴アライメントと言語誘導推論を統合した階層型視覚言語フレームワークであるEEG-VLMを提案する。
具体的には、特殊な視覚強調モジュールが中間層の特徴から高レベルな視覚トークンを構築し、脳波画像のリッチな意味表現を抽出する。
これらのトークンは、マルチレベルのアライメント機構を通じて、低レベルのCLIP機能とさらに整合し、VLMの画像処理能力を高める。
さらに、Chain-of-Thought(CoT)推論戦略は、複雑な医学推論を解釈可能な論理ステップに分解し、専門家のような意思決定を効果的にシミュレートする。
実験結果から,脳波を用いた睡眠段階分類におけるVLMの精度と解釈性の両方が有意に向上し,臨床環境における脳波自動的・説明可能な分析の可能性が示唆された。
関連論文リスト
- WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - DiagECG: An LLM-Driven Framework for Diagnostic Reasoning via Discretized ECG Tokenization [0.7550566004119158]
本稿では,時系列と言語モデリングを統合した新しいフレームワークであるDiagECGを紹介する。
本手法は,リード非依存エンコーダと量子化モジュールを用いて,連続ECG埋め込みをシンボリックトークンに識別する。
論文 参考訳(メタデータ) (2025-08-21T08:13:37Z) - Interpretable EEG-to-Image Generation with Semantic Prompts [6.712646807032639]
本モデルでは,脳波信号とセマンティックキャプションをアライメントすることで,直接脳波画像生成をバイパスする。
トランスフォーマーベースの脳波エンコーダは、対照的な学習を通じて脳活動をこれらのキャプションにマッピングする。
このテキストによるフレームワークは、EEGCVPRデータセット上で最先端のビジュアルデコーディングをもたらす。
論文 参考訳(メタデータ) (2025-07-09T17:18:06Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - Signal, Image, or Symbolic: Exploring the Best Input Representation for Electrocardiogram-Language Models Through a Unified Framework [18.95201514457046]
大型言語モデル(LLM)は心電図(ECG)の解釈に応用されている。
心電図-言語モデル(ELMs)は、専門の心電気生理学者をエミュレートし、診断を発行し、波形形態を分析し、寄与要因を特定し、患者固有の行動計画を提案する。
6つの公開データセットと5つの評価指標にまたがる、これらのモダリティに関する最初の包括的なベンチマークを示す。
論文 参考訳(メタデータ) (2025-05-24T19:43:15Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - EEG-GPT: Exploring Capabilities of Large Language Models for EEG
Classification and Interpretation [0.0]
大規模言語モデル(LLM)の進歩を利用する脳波分類の一元化手法である脳波-GPTを提案する。
脳波-GPTは、トレーニングデータの2%しか利用していない数ショットの学習パラダイムにおいて、異常脳波から正常を分類する最先端のディープラーニング手法に匹敵する優れた性能を達成する。
論文 参考訳(メタデータ) (2024-01-31T17:08:34Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。