論文の概要: Decoding the Multimodal Mind: Generalizable Brain-to-Text Translation via Multimodal Alignment and Adaptive Routing
- arxiv url: http://arxiv.org/abs/2505.10356v2
- Date: Sun, 10 Aug 2025 09:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.761664
- Title: Decoding the Multimodal Mind: Generalizable Brain-to-Text Translation via Multimodal Alignment and Adaptive Routing
- Title(参考訳): マルチモーダルマインドのデコード:多モーダルアライメントと適応ルーティングによる一般化可能なブレイン・トゥ・テキスト翻訳
- Authors: Chunyu Ye, Yunhao Zhang, Jingyuan Sun, Chong Li, Chengqing Zong, Shaonan Wang,
- Abstract要約: 本稿では,脳信号とテキスト,画像,音声を含む共有意味空間を連携させる統合フレームワークを提案する。
ルータモジュールは、各刺激の特性に応じて、モダリティ固有の脳の特徴を動的に選択、融合する。
テキスト、視覚、聴覚刺激を含む様々なfMRIデータセットの実験では、最先端のパフォーマンスを示し、最も一般的に使用されるベンチマークでは8.48%の改善が達成されている。
- 参考スコア(独自算出の注目度): 36.47424671683706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding language from the human brain remains a grand challenge for Brain-Computer Interfaces (BCIs). Current approaches typically rely on unimodal brain representations, neglecting the brain's inherently multimodal processing. Inspired by the brain's associative mechanisms, where viewing an image can evoke related sounds and linguistic representations, we propose a unified framework that leverages Multimodal Large Language Models (MLLMs) to align brain signals with a shared semantic space encompassing text, images, and audio. A router module dynamically selects and fuses modality-specific brain features according to the characteristics of each stimulus. Experiments on various fMRI datasets with textual, visual, and auditory stimuli demonstrate state-of-the-art performance, achieving an 8.48% improvement on the most commonly used benchmark. We further extend our framework to EEG and MEG data, demonstrating flexibility and robustness across varying temporal and spatial resolutions. To our knowledge, this is the first unified BCI architecture capable of robustly decoding multimodal brain activity across diverse brain signals and stimulus types, offering a flexible solution for real-world applications.
- Abstract(参考訳): 人間の脳から言語をデコードすることは、ブレイン・コンピュータ・インタフェース(BCI)にとって大きな課題である。
現在のアプローチは、典型的には、脳の本質的にマルチモーダルな処理を無視して、一様脳表現に依存している。
画像の視聴が関連音や言語表現を誘発する脳の連想メカニズムに着想を得て,マルチモーダル大言語モデル(MLLM)を活用し,脳信号をテキスト,画像,音声を含む共有意味空間と整合させる統合フレームワークを提案する。
ルータモジュールは、各刺激の特性に応じて、モダリティ固有の脳の特徴を動的に選択、融合する。
テキスト、視覚、聴覚刺激を含む様々なfMRIデータセットの実験では、最先端のパフォーマンスを示し、最も一般的に使用されるベンチマークでは8.48%の改善が達成されている。
さらに脳波とMEGデータにフレームワークを拡張し、時間的および空間的解像度の異なる柔軟性と堅牢性を示します。
私たちの知る限り、これは、多様な脳信号や刺激タイプにわたるマルチモーダル脳活動の堅牢な復号化が可能な、初めての統合BCIアーキテクチャであり、現実世界のアプリケーションに柔軟なソリューションを提供する。
関連論文リスト
- MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data [64.92867794764247]
MindAlignerは、限られたfMRIデータからのクロスオブジェクト脳デコーディングのためのフレームワークである。
脳伝達マトリックス(BTM)は、任意の新しい被験者の脳信号を既知の被験者の1人に投射する。
脳機能アライメントモジュールは、異なる視覚刺激下で軟質なクロスオブジェクト脳アライメントを実行するために提案されている。
論文 参考訳(メタデータ) (2025-02-07T16:01:59Z) - Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Language Reconstruction with Brain Predictive Coding from fMRI Data [28.217967547268216]
予測符号化の理論は、人間の脳が将来的な単語表現を継続的に予測していることを示唆している。
textscPredFTは、BLEU-1スコアが最大27.8%$の最先端のデコード性能を実現する。
論文 参考訳(メタデータ) (2024-05-19T16:06:02Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文 参考訳(メタデータ) (2022-10-13T05:49:33Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。