論文の概要: Visio-Linguistic Brain Encoding
- arxiv url: http://arxiv.org/abs/2204.08261v1
- Date: Mon, 18 Apr 2022 11:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 12:57:50.931049
- Title: Visio-Linguistic Brain Encoding
- Title(参考訳): Visio-Linguistic Brain Encoding
- Authors: Subba Reddy Oota, Jashn Arora, Vijay Rowtula, Manish Gupta, Raju S.
Bapi
- Abstract要約: 脳のエンコーディングにおける画像変換器とマルチモーダル変換器の有効性を体系的に検討した。
マルチモーダルトランスであるVisualBERTは,従来提案されていたシングルモードCNNよりも大幅に優れていた。
視覚言語モデルの優位性は、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
- 参考スコア(独自算出の注目度): 3.944020612420711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling effective brain-computer interfaces requires understanding how the
human brain encodes stimuli across modalities such as visual, language (or
text), etc. Brain encoding aims at constructing fMRI brain activity given a
stimulus. There exists a plethora of neural encoding models which study brain
encoding for single mode stimuli: visual (pretrained CNNs) or text (pretrained
language models). Few recent papers have also obtained separate visual and text
representation models and performed late-fusion using simple heuristics.
However, previous work has failed to explore: (a) the effectiveness of image
Transformer models for encoding visual stimuli, and (b) co-attentive
multi-modal modeling for visual and text reasoning. In this paper, we
systematically explore the efficacy of image Transformers (ViT, DEiT, and BEiT)
and multi-modal Transformers (VisualBERT, LXMERT, and CLIP) for brain encoding.
Extensive experiments on two popular datasets, BOLD5000 and Pereira, provide
the following insights. (1) To the best of our knowledge, we are the first to
investigate the effectiveness of image and multi-modal Transformers for brain
encoding. (2) We find that VisualBERT, a multi-modal Transformer, significantly
outperforms previously proposed single-mode CNNs, image Transformers as well as
other previously proposed multi-modal models, thereby establishing new
state-of-the-art. The supremacy of visio-linguistic models raises the question
of whether the responses elicited in the visual regions are affected implicitly
by linguistic processing even when passively viewing images. Future fMRI tasks
can verify this computational insight in an appropriate experimental setting.
- Abstract(参考訳): 効果的な脳-コンピューターインターフェースを実現するには、人間の脳が視覚、言語(またはテキスト)などのモダリティにまたがる刺激をどのようにエンコードするかを理解する必要がある。
脳のエンコーディングは刺激を受けたfMRI脳活動の構築を目的としている。
単一モード刺激のための脳エンコーディングを研究する神経エンコーディングモデルには、視覚的(事前学習されたCNN)またはテキスト(事前学習された言語モデル)がある。
近年の論文では、視覚とテキストの表現モデルが分離され、単純なヒューリスティックスを用いてレイトフュージョンが行われた。
しかし、以前の研究は調査に失敗した。
(a)視覚刺激を符号化するための画像変換器モデルの有効性、及び
(b)視覚・テキスト推論のための協調的マルチモーダルモデリング
本稿では,画像トランスフォーマー (ViT, DEiT, BEiT) とマルチモーダルトランスフォーマー (VisualBERT, LXMERT, CLIP) の脳コードへの応用を系統的に検討する。
人気のデータセットであるbold5000とpereiraに関する広範な実験は、以下の知見を提供している。
1) 画像トランスフォーマーとマルチモーダルトランスフォーマーの脳エンコーディングにおける有効性について検討した。
2) マルチモーダルトランスである VisualBERT は, 従来提案されていたシングルモードCNN, イメージトランスフォーマー, および従来提案していたマルチモーダルモデルを大きく上回り, 新たな最先端技術を確立する。
視覚言語モデルの優越性は、受動的に画像を見る場合でも、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
将来のfMRIタスクは、この計算的洞察を適切な実験環境で検証することができる。
関連論文リスト
- Modality-Agnostic fMRI Decoding of Vision and Language [4.837421245886033]
我々は、画像とテキスト記述の両方を見ている人々の大規模なfMRIデータセット(被験者あたり8,500トライアル)を導入し、使用します。
この新しいデータセットは、被験者が見ている刺激を予測できる単一のデコーダである、モダリティに依存しないデコーダの開発を可能にする。
我々はこのようなデコーダをトレーニングし、脳の信号を様々な利用可能な視覚、言語、マルチモーダル(ビジョン+言語)モデルから刺激表現にマッピングする。
論文 参考訳(メタデータ) (2024-03-18T13:30:03Z) - A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic
Information [5.142858130898767]
従来の視覚符号化モデルは、生物学的発見と矛盾する言語意味情報を含まない。
本稿では,刺激画像と関連するテキスト情報に基づくマルチモーダル視覚情報符号化ネットワークモデルを提案する。
実験により,提案したマルチモーダル視覚情報符号化ネットワークモデルが従来モデルより優れていたことを示す。
論文 参考訳(メタデータ) (2023-08-29T09:21:48Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。