論文の概要: A Systematic Evaluation of Sample-Level Tokenization Strategies for MEG Foundation Models
- arxiv url: http://arxiv.org/abs/2602.16626v1
- Date: Wed, 18 Feb 2026 17:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.663835
- Title: A Systematic Evaluation of Sample-Level Tokenization Strategies for MEG Foundation Models
- Title(参考訳): MEGファンデーションモデルのためのサンプルレベルトークン化戦略の体系的評価
- Authors: SungJun Cho, Chetan Gohil, Rukuang Huang, Oiwi Parker Jones, Mark W. Woolrich,
- Abstract要約: 近年の自然言語処理の成功は、ニューロイメージングデータのための大規模基盤モデルへの関心が高まっている。
ニューラルネットワークに対する異なるトークン化戦略の影響は、現時点ではあまり理解されていない。
本稿では,脳磁図(MEG)データに適用したトランスフォーマーを用いた大規模ニューロイメージングモデルに対して,サンプルレベルのトークン化戦略を体系的に評価する。
- 参考スコア(独自算出の注目度): 6.336623115095147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent success in natural language processing has motivated growing interest in large-scale foundation models for neuroimaging data. Such models often require discretization of continuous neural time series data, a process referred to as 'tokenization'. However, the impact of different tokenization strategies for neural data is currently poorly understood. In this work, we present a systematic evaluation of sample-level tokenization strategies for transformer-based large neuroimaging models (LNMs) applied to magnetoencephalography (MEG) data. We compare learnable and non-learnable tokenizers by examining their signal reconstruction fidelity and their impact on subsequent foundation modeling performance (token prediction, biological plausibility of generated data, preservation of subject-specific information, and performance on downstream tasks). For the learnable tokenizer, we introduce a novel approach based on an autoencoder. Experiments were conducted on three publicly available MEG datasets spanning different acquisition sites, scanners, and experimental paradigms. Our results show that both learnable and non-learnable discretization schemes achieve high reconstruction accuracy and broadly comparable performance across most evaluation criteria, suggesting that simple fixed sample-level tokenization strategies can be used in the development of neural foundation models. The code is available at https://github.com/OHBA-analysis/Cho2026_Tokenizer.
- Abstract(参考訳): 近年の自然言語処理の成功は、ニューロイメージングデータのための大規模基盤モデルへの関心の高まりを動機付けている。
このようなモデルは、しばしば「トークン化」と呼ばれるプロセスである連続神経時系列データの離散化を必要とする。
しかし、ニューラルネットワークに対する異なるトークン化戦略の影響は、現時点ではあまり理解されていない。
本研究では,脳磁図(MEG)データに適用したトランスフォーマーベース大規模ニューロイメージングモデル(LNM)のサンプルレベルのトークン化戦略の体系的評価を行う。
学習可能および学習不可能なトークン化装置を,その信号再構成忠実度とその後の基礎モデリング性能(トケイン予測,生成したデータの生物学的妥当性,主観的情報の保存,下流タスクにおける性能)に与える影響を調べることで比較した。
学習可能なトークン化器に対しては,オートエンコーダに基づく新しい手法を導入する。
異なる取得サイト、スキャナー、実験パラダイムにまたがる3つの公開されたMEGデータセットで実験を行った。
以上の結果から,学習可能かつ学習不能な離散化手法は,ほとんどの評価基準において高い再現精度と広範囲に匹敵する性能を達成し,単純な固定型サンプルレベルのトークン化戦略が神経基盤モデルの開発に有効であることが示唆された。
コードはhttps://github.com/OHBA-analysis/Cho2026_Tokenizerで公開されている。
関連論文リスト
- Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - MEG-GPT: A transformer-based foundation model for magnetoencephalography data [6.336623115095147]
近年のディープラーニングの進歩は、言語や視覚などの他の領域において、大規模に基礎モデルを使用することで、大きな進歩をもたらした。
本稿では,時間アテンションと次の時間ポイント予測を用いたトランスフォーマーベース基盤モデルMEG-GPTを紹介する。
我々は大規模なMEGデータセットから抽出したトークン化された脳領域の時間軸についてMEG-GPTを訓練した。
論文 参考訳(メタデータ) (2025-10-20T20:18:38Z) - Benchmarking Foundation Models for Mitotic Figure Classification [0.37334049820361814]
自己教師付き学習技術は、大規模なニューラルネットワークのトレーニングに大量のラベルのないデータを使用することを可能にした。
本研究では,ミオティックフィギュア分類における基礎モデルの利用について検討する。
我々は、すべてのモデルと、CNNとVision Transformerの両方のエンドツーエンドトレーニングベースラインを比較した。
論文 参考訳(メタデータ) (2025-08-06T13:30:40Z) - Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Rethinking model prototyping through the MedMNIST+ dataset collection [0.11999555634662634]
この作業では、MedMNIST+データセットコレクションの包括的なベンチマークを導入する。
我々は、一般的なCNN(Convolutional Neural Networks)とViT(Vision Transformer)アーキテクチャを、異なる医療データセットにわたって再評価する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルが,エンドツーエンドのトレーニングに有効な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Learning Variational Data Assimilation Models and Solvers [34.22350850350653]
データ同化のためのエンドツーエンドニューラルネットワークアーキテクチャを導入する。
提案するエンドツーエンド学習アーキテクチャの重要な特徴は、教師なし戦略と教師なし戦略の両方を用いてNNモデルをトレーニングできることである。
論文 参考訳(メタデータ) (2020-07-25T14:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。