論文の概要: Revealing Vision-Language Integration in the Brain with Multimodal Networks
- arxiv url: http://arxiv.org/abs/2406.14481v1
- Date: Thu, 20 Jun 2024 16:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:43:03.178228
- Title: Revealing Vision-Language Integration in the Brain with Multimodal Networks
- Title(参考訳): マルチモーダルネットワークを用いた脳内視覚・言語統合の研究
- Authors: Vighnesh Subramaniam, Colin Conwell, Christopher Wang, Gabriel Kreiman, Boris Katz, Ignacio Cases, Andrei Barbu,
- Abstract要約: 我々は,ヒト脳のマルチモーダルな統合部位を,ヒトが映画を観ている最中のステレオ脳波(SEEG)記録を予測することにより探索するために,マルチディープニューラルネットワーク(DNN)を用いた。
マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
- 参考スコア(独自算出の注目度): 21.88969136189006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We use (multi)modal deep neural networks (DNNs) to probe for sites of multimodal integration in the human brain by predicting stereoencephalography (SEEG) recordings taken while human subjects watched movies. We operationalize sites of multimodal integration as regions where a multimodal vision-language model predicts recordings better than unimodal language, unimodal vision, or linearly-integrated language-vision models. Our target DNN models span different architectures (e.g., convolutional networks and transformers) and multimodal training techniques (e.g., cross-attention and contrastive learning). As a key enabling step, we first demonstrate that trained vision and language models systematically outperform their randomly initialized counterparts in their ability to predict SEEG signals. We then compare unimodal and multimodal models against one another. Because our target DNN models often have different architectures, number of parameters, and training sets (possibly obscuring those differences attributable to integration), we carry out a controlled comparison of two models (SLIP and SimCLR), which keep all of these attributes the same aside from input modality. Using this approach, we identify a sizable number of neural sites (on average 141 out of 1090 total sites or 12.94%) and brain regions where multimodal integration seems to occur. Additionally, we find that among the variants of multimodal training techniques we assess, CLIP-style training is the best suited for downstream prediction of the neural activity in these sites.
- Abstract(参考訳): マルチモーダルディープ・ニューラル・ネットワーク(DNN)を用いてヒト脳におけるマルチモーダルな統合の場を探索し,ヒトが映画を見ている間に撮影されたステレオ脳波(SEEG)記録を予測した。
マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
我々のターゲットDNNモデルは、異なるアーキテクチャ(例えば、畳み込みネットワークと変換器)とマルチモーダルトレーニング技術(例えば、クロスアテンションとコントラスト学習)にまたがる。
まず、トレーニングされた視覚モデルと言語モデルは、SEEG信号の予測能力において、ランダムに初期化された言語モデルよりも体系的に優れていることを示す。
次に、単項モデルとマルチモーダルモデルを比較します。
対象のDNNモデルは、しばしば異なるアーキテクチャ、パラメータの数、トレーニングセット(おそらくこれらの違いが統合に起因すると推測される)を持つため、2つのモデル(SLIPとSimCLR)の制御比較を行い、これらの属性は入力モダリティの他に同じものを保持する。
このアプローチを用いることで、膨大な数の神経部位(1090のトータルサイトのうち平均141か12.94%)と、マルチモーダル統合が起こると思われる脳領域を同定する。
さらに、評価したマルチモーダルトレーニング手法の変種の中で、CLIPスタイルのトレーニングは、これらのサイトにおける神経活動の下流予測に最適であることがわかった。
関連論文リスト
- Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models [7.511284868070148]
人間の意味表現が言語情報と感覚運動情報を統合している証拠が増えている。
マルチモーダル情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
以上の結果から,VLM表現は言語と視覚のみのDNNよりも強く相関し,言語処理と機能的に関連する脳領域で活性化することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain [5.496000639803771]
本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
論文 参考訳(メタデータ) (2023-11-13T21:32:37Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。