論文の概要: Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs
- arxiv url: http://arxiv.org/abs/2605.18172v1
- Date: Mon, 18 May 2026 10:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.388148
- Title: Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs
- Title(参考訳): 見えない視界を可視化する: MLLMのユニバーサル脳波理解を支援する生成的ビジュアルグラウンド
- Authors: Junyu Pan, Yansen Wang, Enze Zhang, Baoliang Lu, Weilong Zheng, Dongsheng Li,
- Abstract要約: 生成的ビジュアルグラウンド(GVG)は、脳波から画像への生成モデルを視覚翻訳器として使用することにより、見えないものを可視化する。
GVGは、非視覚的脳波のインスタンス固有のプロキシイメージを幻覚させ、MLLMが臨床状態の解釈のために視覚的優位性を利用することを可能にする。
- 参考スコア(独自算出の注目度): 41.987753428905734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the universal representations of pre-trained LLMs and MLLMs offers a promising path toward brain foundation models. However, visually-evoked EEG datasets remain scarce, leading existing methods to align neural signals mainly with abstract text, a lossy translation that may discard fine-grained perceptual information encoded in brain activity. We propose Generative Visual Grounding (GVG), a framework that visualizes the invisible by using an EEG-to-image generative model as a visual translator. Instead of forcing EEG into text alone, GVG hallucinates instance-specific proxy images for non-visual EEG, providing structured visual contexts that allow MLLMs to exploit their visual priors for clinical-state interpretation. We validate this idea on two MLLM backbones, GVG-X-Omni and GVG-Janus. Image-only alignment is already competitive: the lightweight GVG-X-Omni matches 1.7B-parameter text-aligned baselines while tuning only 170M parameters on a frozen 7B backbone. We further extend GVG-Janus with trimodal Image+Text alignment, where text supplies categorical semantic anchors and visual proxies enrich neural representations with perceptual details. Experiments show consistent gains in EEG understanding and visual generation, suggesting visual proxy grounding as an effective complement to textual alignment.
- Abstract(参考訳): 事前訓練されたLLMとMLLMの普遍的な表現を活用することは、脳基盤モデルへの有望な道のりを提供する。
しかし、視覚的に誘発される脳波データセットは依然として乏しく、神経信号を主に抽象テキストと整合させる既存の手法は、脳の活動で符号化された微細な知覚情報を破棄する可能性がある。
本稿では,脳波から画像への生成モデルを視覚トランスレータとして利用することにより,視覚を可視化するフレームワークである生成視覚グラウンド(GVG)を提案する。
脳波のみをテキストに強制するのではなく、GVGは非視覚脳波のインスタンス固有のプロキシイメージを幻覚させ、MLLMが臨床状態の解釈のために視覚的先行を活用できるように構造化された視覚的コンテキストを提供する。
GVG-X-OmniとGVG-Janusの2つのMLLMバックボーン上でこの考え方を検証する。
軽量のGVG-X-Omniは1.7Bパラメータのテキスト整列ベースラインと一致し、凍結した7Bバックボーン上では170Mパラメータしか調整できない。
我々はさらに、GVG-Janusをトリモーダル画像+テキストアライメントで拡張し、テキストがカテゴリー的なセマンティックアンカーと視覚プロキシを供給し、知覚的詳細で神経表現を豊かにする。
実験では、脳波の理解と視覚生成が一貫した向上を示し、視覚的プロキシグラウンドがテキストアライメントの効果的な補完となることを示唆している。
関連論文リスト
- Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs) [4.720913027054481]
本稿では、この目的を達成するために、脳波データを微調整した命令調整大型言語モデル(LLM)を用いたThought2Textを提案する。
本手法は, 視覚的特徴抽出のための脳波エンコーダのトレーニング, 2) 画像およびテキストデータ上での微調整, マルチモーダル記述生成, (3) 脳波エンコーダのさらなる微調整により, 推論中に直接脳波からテキストを生成する。
論文 参考訳(メタデータ) (2024-10-10T00:47:59Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。