論文の概要: From Eye to Mind: brain2text Decoding Reveals the Neural Mechanisms of Visual Semantic Processing
- arxiv url: http://arxiv.org/abs/2503.22697v1
- Date: Sat, 15 Mar 2025 07:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-06 07:30:21.432570
- Title: From Eye to Mind: brain2text Decoding Reveals the Neural Mechanisms of Visual Semantic Processing
- Title(参考訳): 目から心へ:脳2text Decodingが視覚セマンティック処理の神経機構を解明
- Authors: Feihan Feng, Jingxin Nie,
- Abstract要約: 自然画像のテキスト記述にfMRI信号を直接デコードすることで、パラダイムシフトを導入する。
視覚的入力なしで訓練された新しいディープラーニングモデルは、最先端のセマンティックデコーディング性能を実現する。
神経解剖学的には、MT+、腹側視皮質、下頭頂皮質などの高次視覚領域が重要な役割を担っている。
- 参考スコア(独自算出の注目度): 0.3069335774032178
- License:
- Abstract: Deciphering the neural mechanisms that transform sensory experiences into meaningful semantic representations is a fundamental challenge in cognitive neuroscience. While neuroimaging has mapped a distributed semantic network, the format and neural code of semantic content remain elusive, particularly for complex, naturalistic stimuli. Traditional brain decoding, focused on visual reconstruction, primarily captures low-level perceptual features, missing the deeper semantic essence guiding human cognition. Here, we introduce a paradigm shift by directly decoding fMRI signals into textual descriptions of viewed natural images. Our novel deep learning model, trained without visual input, achieves state-of-the-art semantic decoding performance, generating meaningful captions that capture the core semantic content of complex scenes. Neuroanatomical analysis reveals the critical role of higher-level visual regions, including MT+, ventral stream visual cortex, and inferior parietal cortex, in this semantic transformation. Category-specific decoding further demonstrates nuanced neural representations for semantic dimensions like animacy and motion. This text-based decoding approach provides a more direct and interpretable window into the brain's semantic encoding than visual reconstruction, offering a powerful new methodology for probing the neural basis of complex semantic processing, refining our understanding of the distributed semantic network, and potentially inspiring brain-inspired language models.
- Abstract(参考訳): 感覚経験を意味的な意味表現に変換する神経メカニズムを解読することは、認知神経科学における根本的な課題である。
ニューロイメージングは、分散セマンティックネットワークをマッピングしているが、セマンティックコンテンツの形式と神経コードは、特に複雑で自然主義的な刺激に対して解明され続けている。
視覚的再構成に焦点を当てた伝統的な脳の復号法は、主に低レベルの知覚的特徴を捉え、人間の認知を導く深い意味の本質を欠いている。
本稿では、fMRI信号を自然画像のテキスト記述に直接デコードすることで、パラダイムシフトを導入する。
視覚的入力なしで訓練された新しいディープラーニングモデルは、最先端のセマンティックデコーディング性能を実現し、複雑なシーンのコアセマンティックコンテンツをキャプチャする意味のあるキャプションを生成する。
神経解剖学的解析により、この意味転換において、MT+、腹側前頭葉視覚野、下頭頂葉視覚野などの高次視覚領域が重要な役割を担っていることが明らかとなった。
カテゴリー固有の復号法は、アニマシーや動きのような意味論的な次元に対するニュアンス化された神経表現をさらに示している。
このテキストベースのデコーディングアプローチは、視覚的再構成よりも脳のセマンティックエンコーディングをより直接的で解釈可能なウィンドウを提供し、複雑なセマンティック処理の神経基盤を探索し、分散セマンティックネットワークの理解を洗練し、脳にインスパイアされた言語モデルを促進するための強力な新しい方法論を提供する。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Neural-MCRL: Neural Multimodal Contrastive Representation Learning for EEG-based Visual Decoding [2.587640069216139]
脳波(EEG)を用いた脳活動からの神経視覚表現のデコードは、脳-機械界面(BMI)の進行に不可欠である
既存の手法は、しばしばモダリティ内の意味的一貫性と完全性を見落とし、モダリティ間の効果的なセマンティックアライメントを欠いている。
本稿では,セマンティックブリッジとクロスアテンション機構によるマルチモーダルアライメントを実現する新しいフレームワークであるNeural-MCRLを提案する。
論文 参考訳(メタデータ) (2024-12-23T07:02:44Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。
我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。
MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文 参考訳(メタデータ) (2024-05-29T06:55:03Z) - Saliency Suppressed, Semantics Surfaced: Visual Transformations in Neural Networks and the Brain [0.0]
私たちは神経科学からインスピレーションを得て、ニューラルネットワークが情報を低(視覚的満足度)で高(セマンティックな類似性)の抽象レベルでエンコードする方法について光を当てています。
ResNetsは、オブジェクト分類の目的によって訓練された場合、ViTsよりも唾液度情報に敏感であることが分かりました。
我々は、セマンティックエンコーディングがAIと人間の視覚知覚を協調させる重要な要素であることを示し、サリエンシ抑制は非脳的な戦略であることを示した。
論文 参考訳(メタデータ) (2024-04-29T15:05:42Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - DreamCatcher: Revealing the Language of the Brain with fMRI using GPT
Embedding [6.497816402045099]
本稿では、fMRIデータに基づいてキャプションを生成し、視覚知覚の洞察を得るfMRIキャプションを提案する。
DreamCatcherはRepresentation Space(RSE)とRevEmbedding Decoderで構成される。
fMRIベースのキャプションには、神経メカニズムの理解、ヒューマン・コンピュータインタラクション、学習とトレーニングプロセスの強化など、さまざまな応用がある。
論文 参考訳(メタデータ) (2023-06-16T07:55:20Z) - Semantic Brain Decoding: from fMRI to conceptually similar image
reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。
我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。
視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文 参考訳(メタデータ) (2022-12-13T16:54:08Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。