論文の概要: Brain-DiT: A Universal Multi-state fMRI Foundation Model with Metadata-Conditioned Pretraining
- arxiv url: http://arxiv.org/abs/2604.12683v1
- Date: Tue, 14 Apr 2026 12:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.449237
- Title: Brain-DiT: A Universal Multi-state fMRI Foundation Model with Metadata-Conditioned Pretraining
- Title(参考訳): Brain-DiT: メタデータを付加した事前学習による多状態fMRIファンデーションモデル
- Authors: Junfeng Xia, Wenhao Ye, Xuanye Pan, Xinke Shen, Mo Wang, Quanying Liu,
- Abstract要約: 現在のfMRI基礎モデルは、限られた脳の状態と、ミスマッチした事前訓練タスクに依存している。
我々は24のデータセットから349,898のセッションで事前訓練された,汎用多状態fMRI基盤モデルである textitBrain-DiT を提案する。
- 参考スコア(独自算出の注目度): 6.189635778169108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current fMRI foundation models primarily rely on a limited range of brain states and mismatched pretraining tasks, restricting their ability to learn generalized representations across diverse brain states. We present \textit{Brain-DiT}, a universal multi-state fMRI foundation model pretrained on 349,898 sessions from 24 datasets spanning resting, task, naturalistic, disease, and sleep states. Unlike prior fMRI foundation models that rely on masked reconstruction in the raw-signal space or a latent space, \textit{Brain-DiT} adopts metadata-conditioned diffusion pretraining with a Diffusion Transformer (DiT), enabling the model to learn multi-scale representations that capture both fine-grained functional structure and global semantics. Across extensive evaluations and ablations on 7 downstream tasks, we find consistent evidence that diffusion-based generative pretraining is a stronger proxy than reconstruction or alignment, with metadata-conditioned pretraining further improving downstream performance by disentangling intrinsic neural dynamics from population-level variability. We also observe that downstream tasks exhibit distinct preferences for representational scale: ADNI classification benefits more from global semantic representations, whereas age/sex prediction comparatively relies more on fine-grained local structure. Code and parameters of Brain-DiT are available at \href{https://github.com/REDMAO4869/Brain-DiT}{Link}.
- Abstract(参考訳): 現在のfMRI基礎モデルは、主に限られた脳の状態と、様々な脳の状態にまたがる一般化された表現を学習する能力を制限する不適合な事前訓練タスクに依存している。
本研究は,多状態fMRI基盤モデルであるtextit{Brain-DiT} を,休息,課題,自然主義,疾患,睡眠状態にまたがる24のデータセットから,349,898のセッションで事前訓練した。
原信号空間や潜在空間におけるマスク付き再構成に依存する従来のfMRIファンデーションモデルとは異なり、 \textit{Brain-DiT} はメタデータ条件付き拡散プリトレーニングを Diffusion Transformer (DiT) で採用しており、細粒度関数構造とグローバルセマンティクスの両方を捉えるマルチスケール表現を学習することができる。
7つの下流タスクに対する広範囲な評価と改善により、拡散に基づく生成前訓練が再構成やアライメントよりも強力なプロキシであることを示す一貫した証拠が得られ、メタデータ条件付き前訓練は、個体群レベルの変動から内在性ニューラルダイナミクスを遠ざけ、下流のパフォーマンスをさらに向上させる。
ADNI分類はグローバルな意味的表現から恩恵を受けるが、年齢/性別予測はよりきめ細かな局所構造に依存している。
Brain-DiT のコードとパラメータは \href{https://github.com/REDMAO4869/Brain-DiT}{Link} で公開されている。
関連論文リスト
- Toward a Multi-View Brain Network Foundation Model: Cross-View Consistency Learning Across Arbitrary Atlases [62.33465338932216]
MV-BrainFMは任意のアトラスで構築された脳ネットワークから一般化可能でスケーラブルな表現を学ぶために設計された多視点脳ネットワーク基盤モデルである。
17のfMRIデータセットから20万名以上の被験者を対象に行った実験では、MV-BrainFMは既存の14の脳ネットワーク基盤モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2026-03-20T11:55:00Z) - Brain-OF: An Omnifunctional Foundation Model for fMRI, EEG and MEG [2.783700146328046]
本稿では,fMRI,MEG,EEG入力を統合した脳基礎モデルであるBrain-OFを提案する。
Brain-OFは40のデータセットからなる大規模なコーパスで事前トレーニングされており、さまざまな下流タスクで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-02-26T15:47:13Z) - BrainRVQ: A High-Fidelity EEG Foundation Model via Dual-Domain Residual Quantization and Hierarchical Autoregression [26.114257185901838]
臨床脳波データの大規模コーパスを事前学習した汎用脳波基礎モデルであるBrainRVQを提案する。
BrainRVQはDual-Domain Residual Vector Quantization (DD-RVQ)トークンを特徴としている。
論文 参考訳(メタデータ) (2026-02-18T23:30:36Z) - Region-Aware Reconstruction Strategy for Pre-training fMRI Foundation Model [0.7771985426812056]
我々は,自己指導型事前訓練中に,意味的コヒーレントな脳領域を選択的にマスキングするためのROI誘導マスキング戦略を導入する。
本手法はADHDと診断された個人から健康的なコントロールを識別するための分類精度が4.23%向上したことを示す。
以上の結果から, モデル前訓練における解剖学的領域のマスキングは, 解釈可能性を高めるだけでなく, より堅牢で差別的な表現をもたらすことが示唆された。
論文 参考訳(メタデータ) (2025-11-01T08:12:00Z) - Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - Bridging Foundation Models and Efficient Architectures: A Modular Brain Imaging Framework with Local Masking and Pretrained Representation Learning [7.591083752535149]
ファンデーションモデル(FM)の原則を効率よくドメイン固有のアーキテクチャと統合するモジュラーフレームワークを提案する。
平均絶対誤差は, 年齢予測では5.343, 流体知能では2.940, ピアソン相関係数は0.928, 0.887であった。
この研究は、LLMに基づくfMRI分析のアプローチに代わる堅牢で解釈可能な代替手段を提供し、脳の老化と認知機能に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-08-09T08:06:01Z) - AdaFusion: Prompt-Guided Inference with Adaptive Fusion of Pathology Foundation Models [49.550545038402184]
本稿では,新しいプロンプト誘導推論フレームワークであるAdaFusionを提案する。
本手法は,多様なモデルからタイルレベルの特徴を圧縮・整列する。
AdaFusionは、分類タスクと回帰タスクの両方にわたって、個々のPFMを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:09:31Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。