論文の概要: Modality-Agnostic fMRI Decoding of Vision and Language
- arxiv url: http://arxiv.org/abs/2403.11771v1
- Date: Mon, 18 Mar 2024 13:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:29:45.104383
- Title: Modality-Agnostic fMRI Decoding of Vision and Language
- Title(参考訳): モダリティ非依存 fMRI デコードによる視覚・言語
- Authors: Mitja Nikolaus, Milad Mozafari, Nicholas Asher, Leila Reddy, Rufin VanRullen,
- Abstract要約: 我々は、画像とテキスト記述の両方を見ている人々の大規模なfMRIデータセット(被験者あたり8,500トライアル)を導入し、使用します。
この新しいデータセットは、被験者が見ている刺激を予測できる単一のデコーダである、モダリティに依存しないデコーダの開発を可能にする。
我々はこのようなデコーダをトレーニングし、脳の信号を様々な利用可能な視覚、言語、マルチモーダル(ビジョン+言語)モデルから刺激表現にマッピングする。
- 参考スコア(独自算出の注目度): 4.837421245886033
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Previous studies have shown that it is possible to map brain activation data of subjects viewing images onto the feature representation space of not only vision models (modality-specific decoding) but also language models (cross-modal decoding). In this work, we introduce and use a new large-scale fMRI dataset (~8,500 trials per subject) of people watching both images and text descriptions of such images. This novel dataset enables the development of modality-agnostic decoders: a single decoder that can predict which stimulus a subject is seeing, irrespective of the modality (image or text) in which the stimulus is presented. We train and evaluate such decoders to map brain signals onto stimulus representations from a large range of publicly available vision, language and multimodal (vision+language) models. Our findings reveal that (1) modality-agnostic decoders perform as well as (and sometimes even better than) modality-specific decoders (2) modality-agnostic decoders mapping brain data onto representations from unimodal models perform as well as decoders relying on multimodal representations (3) while language and low-level visual (occipital) brain regions are best at decoding text and image stimuli, respectively, high-level visual (temporal) regions perform well on both stimulus types.
- Abstract(参考訳): 従来の研究では、画像を見る被験者の脳活動データを視覚モデル(モダリティ特異的デコーディング)だけでなく、言語モデル(モダリティ横断デコーディング)の特徴表現空間にマッピングすることが可能であることが示されている。
本研究では,画像とテキスト記述の両方を見ている人々の大規模なfMRIデータセット(約8,500件の被験者毎のトライアル)を新たに導入し,使用した。
このデータセットは、刺激が提示されるモダリティ(画像またはテキスト)に関係なく、被験者が見ている刺激を予測できる単一のデコーダである、モダリティに依存しないデコーダの開発を可能にする。
我々はこのようなデコーダをトレーニングし、脳の信号を様々な利用可能な視覚、言語、マルチモーダル(ビジョン+言語)モデルから刺激表現にマッピングする。
その結果,(1) モダリティに依存しないデコーダ,(2) モダリティに依存しないデコーダ,(2) モダリティに依存しないデコーダ,(3) 言語と低レベルの視覚(後頭)脳領域がテキストや画像刺激の復号に最適であるのに対し,高レベルの視覚(側頭)領域は両方の刺激タイプでよく機能することがわかった。
関連論文リスト
- Towards Neural Foundation Models for Vision: Aligning EEG, MEG, and fMRI Representations for Decoding, Encoding, and Modality Conversion [0.11249583407496218]
本稿では, コントラスト学習を活用することで, 脳活動のマルチモーダル表現に対して, 神経データと視覚刺激を協調させる基礎モデルを構築するための新しいアプローチを提案する。
脳波(EEG)、脳磁図(MEG)、fMRIデータを用いた。
われわれのフレームワークの能力は、ニューラルデータから視覚情報をデコードし、画像をニューラル表現にエンコードし、ニューラルモダリティ間の変換という3つの重要な実験によって実証される。
論文 参考訳(メタデータ) (2024-11-14T12:27:27Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic
Information [5.142858130898767]
従来の視覚符号化モデルは、生物学的発見と矛盾する言語意味情報を含まない。
本稿では,刺激画像と関連するテキスト情報に基づくマルチモーダル視覚情報符号化ネットワークモデルを提案する。
実験により,提案したマルチモーダル視覚情報符号化ネットワークモデルが従来モデルより優れていたことを示す。
論文 参考訳(メタデータ) (2023-08-29T09:21:48Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Visio-Linguistic Brain Encoding [3.944020612420711]
脳のエンコーディングにおける画像変換器とマルチモーダル変換器の有効性を体系的に検討した。
マルチモーダルトランスであるVisualBERTは,従来提案されていたシングルモードCNNよりも大幅に優れていた。
視覚言語モデルの優位性は、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2022-04-18T11:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。