論文の概要: UMBRAE: Unified Multimodal Brain Decoding
- arxiv url: http://arxiv.org/abs/2404.07202v2
- Date: Thu, 18 Jul 2024 12:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:52:07.422106
- Title: UMBRAE: Unified Multimodal Brain Decoding
- Title(参考訳): UMBRAE: 統一マルチモーダル脳デコーディング
- Authors: Weihao Xia, Raoul de Charette, Cengiz Öztireli, Jing-Hao Xue,
- Abstract要約: 脳信号のマルチモーダルデコードであるUMBRAEを提案する。
マルチモーダル脳アライメントのための効率的なユニバーサル脳エンコーダを提案する。
また,対象物固有の特徴を共通の特徴空間にマッピングするクロスオブジェクトトレーニング戦略も導入する。
- 参考スコア(独自算出の注目度): 43.6339793925953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address prevailing challenges of the brain-powered research, departing from the observation that the literature hardly recover accurate spatial information and require subject-specific models. To address these challenges, we propose UMBRAE, a unified multimodal decoding of brain signals. First, to extract instance-level conceptual and spatial details from neural signals, we introduce an efficient universal brain encoder for multimodal-brain alignment and recover object descriptions at multiple levels of granularity from subsequent multimodal large language model (MLLM). Second, we introduce a cross-subject training strategy mapping subject-specific features to a common feature space. This allows a model to be trained on multiple subjects without extra resources, even yielding superior results compared to subject-specific models. Further, we demonstrate this supports weakly-supervised adaptation to new subjects, with only a fraction of the total training data. Experiments demonstrate that UMBRAE not only achieves superior results in the newly introduced tasks but also outperforms methods in well established tasks. To assess our method, we construct and share with the community a comprehensive brain understanding benchmark BrainHub. Our code and benchmark are available at https://weihaox.github.io/UMBRAE.
- Abstract(参考訳): 我々は、文献が正確な空間情報をほとんど復元せず、主題固有のモデルを必要とするという観察から離れて、脳による研究の一般的な課題に対処する。
これらの課題に対処するため,脳信号のマルチモーダルデコードであるUMBRAEを提案する。
まず、ニューラルネットワークからインスタンスレベルの概念的・空間的詳細を抽出するため、マルチモーダル脳アライメントのための効率的なユニバーサル脳エンコーダを導入し、その後のマルチモーダル大言語モデル(MLLM)から多段階の粒度でオブジェクト記述を復元する。
第2に,対象物固有の特徴を共通の特徴空間にマッピングするクロスオブジェクトトレーニング戦略を導入する。
これにより、モデルは余分なリソースを使わずに複数の被験者でトレーニングでき、また、対象固有のモデルよりも優れた結果が得られる。
さらに,本研究は,新たな被験者への教師付き適応を弱め,トレーニングデータのごく一部に過ぎなかったことを実証する。
実験により、UMBRAEは新たに導入されたタスクにおいて優れた結果を得るだけでなく、確立されたタスクにおいてメソッドよりも優れることが示された。
提案手法を評価するため,脳理解ベンチマークBrainHubを構築し,コミュニティと共有する。
私たちのコードとベンチマークはhttps://weihaox.github.io/UMBRAE.comで公開されています。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - BrainSegFounder: Towards 3D Foundation Models for Neuroimage Segmentation [6.5388528484686885]
本研究は,医療基盤モデルの創出に向けた新しいアプローチを紹介する。
本稿では,視覚変換器を用いた2段階事前学習手法を提案する。
BrainFounderは、これまでの勝利ソリューションの成果を上回る、大幅なパフォーマンス向上を実演している。
論文 参考訳(メタデータ) (2024-06-14T19:49:45Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Retinotopy Inspired Brain Encoding Model and the All-for-One Training
Recipe [14.943061215875655]
3つの画像モダリティにまたがる5つの公開データセットから100万以上のデータポイントを用いて、脳エンコーディングモデルを事前訓練した。
本稿では、一般的に使用される視覚バックボーンモデルのドロップイン置換として、事前学習モデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-26T08:06:40Z) - MTNeuro: A Benchmark for Evaluating Representations of Brain Structure
Across Multiple Levels of Abstraction [0.0]
脳のマッピングでは、画像を自動的に解析して、小さな特徴とグローバルな特性の両方の表現を構築することは、決定的かつオープンな課題である。
我々のベンチマーク(MTNeuro)は、マウス脳の広い領域にまたがる体積分解能X線マイクロトモグラフィー画像に基づいている。
我々は様々な予測課題を生み出し、脳領域予測と画素レベルの微構造セマンティックセマンティックセグメンテーションのための教師付きおよび自己教師型モデルを評価した。
論文 参考訳(メタデータ) (2023-01-01T04:54:03Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。