論文の概要: fMRI-LM: Towards a Universal Foundation Model for Language-Aligned fMRI Understanding
- arxiv url: http://arxiv.org/abs/2511.21760v1
- Date: Mon, 24 Nov 2025 20:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.218391
- Title: fMRI-LM: Towards a Universal Foundation Model for Language-Aligned fMRI Understanding
- Title(参考訳): fMRI-LM:言語対応fMRI理解のためのユニバーサル基礎モデルを目指して
- Authors: Yuxiang Wei, Yanteng Zhang, Xi Xiao, Chengxuan Qian, Tianyang Wang, Vince D. Calhoun,
- Abstract要約: 機能的MRI(fMRI)と言語を3段階の枠組みでブリッジする基礎モデルであるfMRI-LMを提案する。
ステージ1では、fMRIを言語一貫性空間に埋め込まれた離散トークンにマッピングする神経トークン化器を学習する。
ステージ2では、事前訓練されたLLMがfMRIトークンとテキストを共同でモデル化し、脳の活動が時間的に予測され言語的に記述されるシーケンスとして扱われる。
ステージ3では、ハイレベルなセマンティック理解を備えたfMRI-LMを実現するために、マルチタスク、マルチパラダイムのチューニングを行う。
- 参考スコア(独自算出の注目度): 30.02799445727658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (LLMs) have enabled unified reasoning across images, audio, and video, but extending such capability to brain imaging remains largely unexplored. Bridging this gap is essential to link neural activity with semantic cognition and to develop cross-modal brain representations. To this end, we present fMRI-LM, a foundational model that bridges functional MRI (fMRI) and language through a three-stage framework. In Stage 1, we learn a neural tokenizer that maps fMRI into discrete tokens embedded in a language-consistent space. In Stage 2, a pretrained LLM is adapted to jointly model fMRI tokens and text, treating brain activity as a sequence that can be temporally predicted and linguistically described. To overcome the lack of natural fMRI-text pairs, we construct a large descriptive corpus that translates diverse imaging-based features into structured textual descriptors, capturing the low-level organization of fMRI signals. In Stage 3, we perform multi-task, multi-paradigm instruction tuning to endow fMRI-LM with high-level semantic understanding, supporting diverse downstream applications. Across various benchmarks, fMRI-LM achieves strong zero-shot and few-shot performance, and adapts efficiently with parameter-efficient tuning (LoRA), establishing a scalable pathway toward a language-aligned, universal model for structural and semantic understanding of fMRI.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル(LLM)の進歩により、画像、音声、ビデオの統一推論が可能になったが、脳画像への拡張はいまだに未解明のままである。
このギャップを埋めることは、神経活動とセマンティック認知を結びつけること、およびクロスモーダルな脳表現を開発するために不可欠である。
この目的のために,機能的MRI(fMRI)と言語を3段階の枠組みでブリッジする基礎モデルであるfMRI-LMを提案する。
ステージ1では、fMRIを言語一貫性空間に埋め込まれた離散トークンにマッピングする神経トークン化器を学習する。
ステージ2では、事前訓練されたLLMがfMRIトークンとテキストを共同でモデル化し、脳の活動が時間的に予測され言語的に記述されるシーケンスとして扱われる。
自然なfMRI-textペアの欠如を克服するために,多様な画像ベースの特徴を構造化されたテキスト記述子に変換する大規模な記述コーパスを構築し,fMRI信号の低レベルな構造を捉える。
ステージ3では、FMRI-LMを高レベルなセマンティック理解で実現し、様々なダウンストリームアプリケーションをサポートするマルチタスク、マルチパラダイム・インストラクションチューニングを行う。
様々なベンチマークにおいて、fMRI-LMは強いゼロショットと少数ショットのパフォーマンスを達成し、パラメータ効率のチューニング(LoRA)により効率よく適応し、fMRIの構造的・意味的理解のための言語に整合した普遍的なモデルに向けたスケーラブルな経路を確立する。
関連論文リスト
- OmniMRI: A Unified Vision--Language Foundation Model for Generalist MRI Interpretation [5.3427577036717]
我々は、MRIワークフロー全体にわたって一般化するために設計された統合視覚言語基盤モデルであるOmniMRIを紹介する。
OmniMRIは60のパブリックデータセットからキュレートされた大規模で異質なコーパスで訓練されている。
結果は,単一アーキテクチャ内で多様なタスクを実行できるOmniMRIの能力を示している。
論文 参考訳(メタデータ) (2025-08-24T21:11:28Z) - Perception Activator: An intuitive and portable framework for brain cognitive exploration [19.851643249367108]
干渉条件としてfMRI表現を用いる実験フレームワークを開発した。
オブジェクト検出とインスタンス分割タスクにおける下流性能と中間的特徴の変化をfMRI情報の有無で比較した。
以上の結果から,fMRIには多目的セマンティック・キューが豊富に含まれていることが証明された。
論文 参考訳(メタデータ) (2025-07-03T04:46:48Z) - LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。