論文の概要: MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model
- arxiv url: http://arxiv.org/abs/2405.18812v1
- Date: Wed, 29 May 2024 06:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:28:55.409098
- Title: MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model
- Title(参考訳): MindSemantix:脳-言語モデルによる脳視覚体験の解読
- Authors: Ziqi Ren, Jie Li, Xuetong Xue, Xin Li, Fan Yang, Zhicheng Jiao, Xinbo Gao,
- Abstract要約: fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。
我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。
MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
- 参考スコア(独自算出の注目度): 45.18716166499859
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deciphering the human visual experience through brain activities captured by fMRI represents a compelling and cutting-edge challenge in the field of neuroscience research. Compared to merely predicting the viewed image itself, decoding brain activity into meaningful captions provides a higher-level interpretation and summarization of visual information, which naturally enhances the application flexibility in real-world situations. In this work, we introduce MindSemantix, a novel multi-modal framework that enables LLMs to comprehend visually-evoked semantic content in brain activity. Our MindSemantix explores a more ideal brain captioning paradigm by weaving LLMs into brain activity analysis, crafting a seamless, end-to-end Brain-Language Model. To effectively capture semantic information from brain responses, we propose Brain-Text Transformer, utilizing a Brain Q-Former as its core architecture. It integrates a pre-trained brain encoder with a frozen LLM to achieve multi-modal alignment of brain-vision-language and establish a robust brain-language correspondence. To enhance the generalizability of neural representations, we pre-train our brain encoder on a large-scale, cross-subject fMRI dataset using self-supervised learning techniques. MindSemantix provides more feasibility to downstream brain decoding tasks such as stimulus reconstruction. Conditioned by MindSemantix captioning, our framework facilitates this process by integrating with advanced generative models like Stable Diffusion and excels in understanding brain visual perception. MindSemantix generates high-quality captions that are deeply rooted in the visual and semantic information derived from brain activity. This approach has demonstrated substantial quantitative improvements over prior art. Our code will be released.
- Abstract(参考訳): fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、神経科学研究の分野における魅力的な最先端の課題である。
観察画像自体を単に予測するのではなく、脳活動を意味のあるキャプションにデコードすることで、視覚情報の高レベルな解釈と要約が可能になり、現実の状況における応用の柔軟性が自然に向上する。
本研究では,脳活動における視覚的に誘発される意味的内容の理解を可能にする,新しいマルチモーダルフレームワークであるMindSemantixを紹介する。
私たちのMindSemantixは、LLMを脳活動分析に織り込み、シームレスでエンドツーエンドのBrain-Language Modelを構築することで、より理想的な脳キャプションパラダイムを探求しています。
脳の応答から意味情報を効果的に捉えるために,脳Q-Formerをコアアーキテクチャとして利用するBrain-Text Transformerを提案する。
トレーニング済みの脳エンコーダと凍結LDMを統合して、脳ビジョン言語を多モードでアライメントし、堅牢な脳-言語対応を確立する。
神経表現の一般化性を高めるために,脳エンコーダを自己教師付き学習技術を用いて,大規模・クロスオブジェクトfMRIデータセット上で事前訓練する。
MindSemantixは、刺激再構成のような下流脳のデコードタスクに、より実現可能性を提供します。
MindSemantixのキャプションにより、私たちのフレームワークは、安定拡散のような高度な生成モデルと統合し、脳の視覚的知覚を理解することを促進する。
MindSemantixは、脳の活動から派生した視覚的および意味的な情報に深く根ざした高品質なキャプションを生成する。
このアプローチは、先行技術よりも相当に定量的に改善されている。
私たちのコードは解放されます。
関連論文リスト
- Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Chat2Brain: A Method for Mapping Open-Ended Semantic Queries to Brain
Activation Maps [59.648646222905235]
そこで本研究では,テキスト2画像モデルであるText2BrainにLLMを組み合わせ,セマンティッククエリを脳活性化マップにマッピングするChat2Brainを提案する。
テキストクエリのより複雑なタスクに対して、Chat2Brainが可塑性なニューラルアクティベーションパターンを合成できることを実証した。
論文 参考訳(メタデータ) (2023-09-10T13:06:45Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Explainable fMRI-based Brain Decoding via Spatial Temporal-pyramid Graph
Convolutional Network [0.8399688944263843]
既存のfMRIベースの脳デコードのための機械学習手法は、分類性能が低いか、説明性が悪いかのいずれかに悩まされている。
本稿では,機能的脳活動の時空間グラフ表現を捉えるために,生物学的にインスパイアされたアーキテクチャである時空間ピラミドグラフ畳み込みネットワーク(STpGCN)を提案する。
我々は,Human Connectome Project (HCP) S1200から23の認知タスク下でのfMRIデータに関する広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-08T12:14:33Z) - Visual representations in the human brain are aligned with large language models [7.779248296336383]
大規模言語モデル(LLM)は,脳が自然界から抽出した複雑な視覚情報をモデル化するのに有用であることを示す。
次に、画像入力をLLM表現に変換するために、ディープニューラルネットワークモデルを訓練する。
論文 参考訳(メタデータ) (2022-09-23T17:34:33Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。