論文の概要: Lite-Mind: Towards Efficient and Robust Brain Representation Network
- arxiv url: http://arxiv.org/abs/2312.03781v2
- Date: Tue, 12 Mar 2024 08:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:17:35.865858
- Title: Lite-Mind: Towards Efficient and Robust Brain Representation Network
- Title(参考訳): Lite-Mind: 効率的でロバストな脳表現ネットワークを目指して
- Authors: Zixuan Gong, Qi Zhang, Duoqian Miao, Guangyin Bao, Liang Hu
- Abstract要約: 離散変換に基づく軽量・効率的・多目的な脳表現ネットワークLite-Mindを提案する。
Lite-Mindは、被写体1のNSDデータセット上で94.3%のfMRI-to-image検索精度を実現し、MindEyeよりも9つのパラメータが少ない。
Lite-Mindはまた、より小さな脳データセットに移行できることが証明されており、GODデータセット上でゼロショット分類のための新しい最先端技術を確立している。
- 参考スコア(独自算出の注目度): 15.163384762146826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in decoding visual information from the brain, particularly through
the non-invasive fMRI method, is rapidly progressing. The challenge arises from
the limited data availability and the low signal-to-noise ratio of fMRI
signals, leading to a low-precision task of fMRI-to-image retrieval.
State-of-the-art MindEye remarkably improves fMRI-to-image retrieval
performance by leveraging a deep MLP with a high parameter count orders of
magnitude, i.e., a 996M MLP Backbone per subject, to align fMRI embeddings to
the final hidden layer of CLIP's vision transformer. However, significant
individual variations exist among subjects, even within identical experimental
setups, mandating the training of subject-specific models. The substantial
parameters pose significant challenges in deploying fMRI decoding on practical
devices, especially with the necessitating of specific models for each subject.
To this end, we propose Lite-Mind, a lightweight, efficient, and versatile
brain representation network based on discrete Fourier transform, that
efficiently aligns fMRI voxels to fine-grained information of CLIP. Our
experiments demonstrate that Lite-Mind achieves an impressive 94.3%
fMRI-to-image retrieval accuracy on the NSD dataset for Subject 1, with 98.7%
fewer parameters than MindEye. Lite-Mind is also proven to be able to be
migrated to smaller brain datasets and establishes a new state-of-the-art for
zero-shot classification on the GOD dataset. The code is available at
https://github.com/gongzix/Lite-Mind.
- Abstract(参考訳): 脳からの視覚情報、特に非侵襲的fMRI法による復号化の研究が急速に進んでいる。
この課題は、fMRI信号の限られたデータ可用性と低信号-雑音比から生じ、fMRI-画像検索の低精度タスクにつながる。
最先端のMindEyeは、CLIPの視覚変換器の最終的な隠蔽層にfMRI埋め込みを合わせるために、高いパラメータ数オーダーの深いMLP、すなわち被写体毎の996万のMLPバックボーンを活用することにより、fMRIから画像への検索性能を著しく向上させる。
しかし、同一の実験的な設定であっても、被験者間で有意な個人差が存在し、被験者固有のモデルの訓練を行う。
重要なパラメータは、fMRIデコーディングを実用機器、特に各被験者に特定のモデルを必要とする場合に、重大な課題となる。
そこで本研究では,FMRIボクセルをCLIPの微細な情報に効率よく整列する,離散フーリエ変換に基づく軽量で効率的で多用途な脳表現ネットワークLite-Mindを提案する。
実験の結果,Lite-Mind は対象1の NSD データセットに対して,94.3% fMRI-to-image の精度を達成でき,パラメータは MindEye よりも98.7% 少ないことがわかった。
Lite-Mindはまた、より小さな脳データセットに移行できることが証明されており、GODデータセット上でゼロショット分類のための新しい最先端技術を確立している。
コードはhttps://github.com/gongzix/lite-mindで入手できる。
関連論文リスト
- LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Transferring Ultrahigh-Field Representations for Intensity-Guided Brain
Segmentation of Low-Field Magnetic Resonance Imaging [51.92395928517429]
7T MRIの使用は、低磁場MRIと比較して高コストでアクセシビリティが低いため制限されている。
本研究では,入力されたLF磁気共鳴特徴表現と,脳画像分割タスクのための7T様特徴表現とを融合したディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T12:21:06Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Learning Sequential Information in Task-based fMRI for Synthetic Data
Augmentation [10.629487323161323]
本稿では、下流学習における強化トレーニングデータセットの作成に使用できる合成fMRIシーケンスの生成手法を提案する。
合成画像は、可視化や自閉症スペクトラム障害(ASD)分類タスクを含む複数の視点から評価される。
論文 参考訳(メタデータ) (2023-08-29T18:36:21Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - MouseGAN++: Unsupervised Disentanglement and Contrastive Representation
for Multiple MRI Modalities Synthesis and Structural Segmentation of Mouse
Brain [4.733517098000804]
マルチモーダルマウスの脳MRIデータは、しばしば欠落しており、マウスの脳の微細構造を自動的に分割することが非常に難しい課題である。
構造保存方式で複数のMRモーダルを合成するために,MormoGAN++という,非交叉型かつコントラスト型のGANベースのフレームワークを提案する。
その後に学習されたモダリティ不変情報とモダリティ変換画像を用いて、マウスGAN++は、平均ダイス係数90.0%(T2w)と87.9%(T1w)の微細脳構造を分割することができる。
論文 参考訳(メタデータ) (2022-12-04T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。