論文の概要: MindGPT: Interpreting What You See with Non-invasive Brain Recordings
- arxiv url: http://arxiv.org/abs/2309.15729v1
- Date: Wed, 27 Sep 2023 15:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:03:09.189144
- Title: MindGPT: Interpreting What You See with Non-invasive Brain Recordings
- Title(参考訳): MindGPT:非侵襲的な脳記録で見るものを解釈する
- Authors: Jiaxuan Chen, Yu Qi, Yueming Wang, Gang Pan
- Abstract要約: 我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
- 参考スコア(独自算出の注目度): 24.63828455553959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding of seen visual contents with non-invasive brain recordings has
important scientific and practical values. Efforts have been made to recover
the seen images from brain signals. However, most existing approaches cannot
faithfully reflect the visual contents due to insufficient image quality or
semantic mismatches. Compared with reconstructing pixel-level visual images,
speaking is a more efficient and effective way to explain visual information.
Here we introduce a non-invasive neural decoder, termed as MindGPT, which
interprets perceived visual stimuli into natural languages from fMRI signals.
Specifically, our model builds upon a visually guided neural encoder with a
cross-attention mechanism, which permits us to guide latent neural
representations towards a desired language semantic direction in an end-to-end
manner by the collaborative use of the large language model GPT. By doing so,
we found that the neural representations of the MindGPT are explainable, which
can be used to evaluate the contributions of visual properties to language
semantics. Our experiments show that the generated word sequences truthfully
represented the visual information (with essential details) conveyed in the
seen stimuli. The results also suggested that with respect to language decoding
tasks, the higher visual cortex (HVC) is more semantically informative than the
lower visual cortex (LVC), and using only the HVC can recover most of the
semantic information. The code of the MindGPT model will be publicly available
at https://github.com/JxuanC/MindGPT.
- Abstract(参考訳): 非侵襲的な脳記録による視覚内容の復号は、重要な科学的および実践的な価値を持つ。
脳の信号から観察された画像を回復する努力がなされている。
しかし、既存のほとんどのアプローチは、画像の品質や意味的ミスマッチが不十分なため、視覚的内容に忠実に反映できない。
画素レベルの視覚画像の再構成と比較すると、発話は視覚情報を説明するためのより効率的で効果的な方法である。
本稿では,fMRI信号から知覚された視覚刺激を自然言語に解釈する非侵襲的神経デコーダMindGPTを紹介する。
具体的には,大規模言語モデルGPTの協調的利用により,視覚的にガイドされたニューラルエンコーダに基づいて,潜在的ニューラル表現を所望の言語意味方向へ導出することを可能にする。
これにより、MindGPTの神経表現が説明可能であり、言語意味論への視覚的特性の寄与を評価するのに使用できることがわかった。
実験では,生成された単語列が視覚情報(本質的詳細)を真に表現していることを示す。
また, 言語復号処理においては, 高次視覚野(HVC)は低次視覚野(LVC)よりも意味的に有意であり, 意味情報の大半をHVCのみを用いて回収できることが示唆された。
MindGPTモデルのコードはhttps://github.com/JxuanC/MindGPTで公開されている。
関連論文リスト
- Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-10-31T03:37:21Z) - BrainDecoder: Style-Based Visual Decoding of EEG Signals [2.1611379205310506]
脳波(EEG)から視覚刺激の神経表現をデコードすることで、脳の活動と認知に関する貴重な洞察が得られる。
近年の深層学習の進歩は脳波の視覚的復号化の分野を著しく強化している。
被験者が見ている画像の色やテクスチャなどのスタイルの再構築を強調する新しいビジュアルデコードパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:14:23Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Saliency Suppressed, Semantics Surfaced: Visual Transformations in Neural Networks and the Brain [0.0]
私たちは神経科学からインスピレーションを得て、ニューラルネットワークが情報を低(視覚的満足度)で高(セマンティックな類似性)の抽象レベルでエンコードする方法について光を当てています。
ResNetsは、オブジェクト分類の目的によって訓練された場合、ViTsよりも唾液度情報に敏感であることが分かりました。
我々は、セマンティックエンコーディングがAIと人間の視覚知覚を協調させる重要な要素であることを示し、サリエンシ抑制は非脳的な戦略であることを示した。
論文 参考訳(メタデータ) (2024-04-29T15:05:42Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Neural encoding with visual attention [17.020869686284165]
トレーニング可能なソフトアテンションモジュールを組み込んだニューラルエンコーディング手法を提案する。
独立データに基づくモデルにより推定された注意位置は、対応する眼球固定パターンとよく一致している。
論文 参考訳(メタデータ) (2020-10-01T16:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。