論文の概要: Brain encoding models based on multimodal transformers can transfer
across language and vision
- arxiv url: http://arxiv.org/abs/2305.12248v1
- Date: Sat, 20 May 2023 17:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:40:39.412416
- Title: Brain encoding models based on multimodal transformers can transfer
across language and vision
- Title(参考訳): マルチモーダルトランスフォーマーに基づく脳符号化モデルによる言語と視覚の伝達
- Authors: Jerry Tang, Meng Du, Vy A. Vo, Vasudev Lal, Alexander G. Huth
- Abstract要約: 我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
- 参考スコア(独自算出の注目度): 60.72020004771044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoding models have been used to assess how the human brain represents
concepts in language and vision. While language and vision rely on similar
concept representations, current encoding models are typically trained and
tested on brain responses to each modality in isolation. Recent advances in
multimodal pretraining have produced transformers that can extract aligned
representations of concepts in language and vision. In this work, we used
representations from multimodal transformers to train encoding models that can
transfer across fMRI responses to stories and movies. We found that encoding
models trained on brain responses to one modality can successfully predict
brain responses to the other modality, particularly in cortical regions that
represent conceptual meaning. Further analysis of these encoding models
revealed shared semantic dimensions that underlie concept representations in
language and vision. Comparing encoding models trained using representations
from multimodal and unimodal transformers, we found that multimodal
transformers learn more aligned representations of concepts in language and
vision. Our results demonstrate how multimodal transformers can provide
insights into the brain's capacity for multimodal processing.
- Abstract(参考訳): エンコーディングモデルは、人間の脳が言語と視覚の概念をどのように表現するかを評価するために使われてきた。
言語と視覚は類似した概念表現に依存しているが、現在のエンコーディングモデルは、通常、各モダリティに対する脳の反応を分離して訓練し、テストされる。
マルチモーダル事前学習の最近の進歩は、言語と視覚の概念の整合表現を抽出するトランスフォーマーを生み出した。
本研究では,マルチモーダルトランスフォーマーの表現を用いて,fmri応答からストーリーや映画に伝達可能なエンコーディングモデルを訓練した。
一方のモダリティに対する脳の反応を訓練したモデルでは、他のモダリティ、特に概念的意味を表す皮質領域に対する脳の反応をうまく予測できることがわかりました。
これらの符号化モデルのさらなる分析により、言語と視覚における概念表現の基盤となる共有意味次元が明らかになった。
マルチモーダルトランスフォーマーとユニモーダルトランスフォーマーの表現を用いてトレーニングされた符号化モデルを比較することで、マルチモーダルトランスフォーマーが言語や視覚における概念のより整合した表現を学ぶことを発見した。
本研究では,マルチモーダルトランスフォーマーが脳のマルチモーダル処理能力に対する洞察を与える方法を示す。
関連論文リスト
- Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain [5.496000639803771]
本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
論文 参考訳(メタデータ) (2023-11-13T21:32:37Z) - A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic
Information [5.142858130898767]
従来の視覚符号化モデルは、生物学的発見と矛盾する言語意味情報を含まない。
本稿では,刺激画像と関連するテキスト情報に基づくマルチモーダル視覚情報符号化ネットワークモデルを提案する。
実験により,提案したマルチモーダル視覚情報符号化ネットワークモデルが従来モデルより優れていたことを示す。
論文 参考訳(メタデータ) (2023-08-29T09:21:48Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Visio-Linguistic Brain Encoding [3.944020612420711]
脳のエンコーディングにおける画像変換器とマルチモーダル変換器の有効性を体系的に検討した。
マルチモーダルトランスであるVisualBERTは,従来提案されていたシングルモードCNNよりも大幅に優れていた。
視覚言語モデルの優位性は、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2022-04-18T11:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。