論文の概要: Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2407.17914v1
- Date: Thu, 25 Jul 2024 10:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:28:24.757733
- Title: Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models
- Title(参考訳): 視覚・言語モデルを用いた概念処理におけるマルチモーダル統合のモデル化
- Authors: Anna Bavaresco, Marianne de Heer Kloots, Sandro Pezzelle, Raquel Fernández,
- Abstract要約: 人間の意味表現が言語情報と感覚運動情報を統合している証拠が増えている。
マルチモーダル情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
以上の結果から,VLM表現は言語と視覚のみのDNNよりも強く相関し,言語処理と機能的に関連する脳領域で活性化することが明らかとなった。
- 参考スコア(独自算出の注目度): 7.511284868070148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representations from deep neural networks (DNNs) have proven remarkably predictive of neural activity involved in both visual and linguistic processing. Despite these successes, most studies to date concern unimodal DNNs, encoding either visual or textual input but not both. Yet, there is growing evidence that human meaning representations integrate linguistic and sensory-motor information. Here we investigate whether the integration of multimodal information operated by current vision-and-language DNN models (VLMs) leads to representations that are more aligned with human brain activity than those obtained by language-only and vision-only DNNs. We focus on fMRI responses recorded while participants read concept words in the context of either a full sentence or an accompanying picture. Our results reveal that VLM representations correlate more strongly than language- and vision-only DNNs with activations in brain areas functionally related to language processing. A comparison between different types of visuo-linguistic architectures shows that recent generative VLMs tend to be less brain-aligned than previous architectures with lower performance on downstream applications. Moreover, through an additional analysis comparing brain vs. behavioural alignment across multiple VLMs, we show that -- with one remarkable exception -- representations that strongly align with behavioural judgments do not correlate highly with brain responses. This indicates that brain similarity does not go hand in hand with behavioural similarity, and vice versa.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)からの表現は、視覚処理と言語処理の両方に関わる神経活動の顕著な予測を証明している。
これらの成功にもかかわらず、今日のほとんどの研究は、視覚的またはテキスト的な入力を符号化するが両方ではない、単調なDNNに関するものである。
しかし、人間の意味表現が言語情報と感覚運動情報を統合している証拠が増えている。
本稿では、現在の視覚・言語DNNモデル(VLM)が運用するマルチモーダル情報の統合が、言語のみおよび視覚のみのDNNよりも人間の脳活動に整合した表現をもたらすかどうかを検討する。
参加者は、全文または付随画像の文脈で概念語を読みながら記録されたfMRI応答に注目した。
以上の結果から,VLM表現は言語と視覚のみのDNNよりも強く相関し,言語処理と機能的に関連する脳領域で活性化することが明らかとなった。
異なるタイプのビジュオ言語アーキテクチャの比較では、近年のVLMは従来のアーキテクチャに比べて脳の整合性が低く、下流アプリケーションでは性能が低い傾向が示されている。
さらに、複数のVLMにまたがって脳と行動整合性を比較する追加分析により、行動判断と強い整合性を示す表現が、脳の反応と高く相関しないことが示される。
これは、脳の類似性は行動の類似性と密接に関連せず、その逆であることを示している。
関連論文リスト
- Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - Revealing Vision-Language Integration in the Brain with Multimodal Networks [21.88969136189006]
我々は,ヒト脳のマルチモーダルな統合部位を,ヒトが映画を観ている最中のステレオ脳波(SEEG)記録を予測することにより探索するために,マルチディープニューラルネットワーク(DNN)を用いた。
マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
論文 参考訳(メタデータ) (2024-06-20T16:43:22Z) - MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。
我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。
MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文 参考訳(メタデータ) (2024-05-29T06:55:03Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Revealing the Parallel Multilingual Learning within Large Language Models [50.098518799536144]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。
入力を複数の言語に翻訳することで、並列入力(PiM)をLLMに提供し、その理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-14T03:33:46Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Transferability of coVariance Neural Networks and Application to
Interpretable Brain Age Prediction using Anatomical Features [119.45320143101381]
グラフ畳み込みネットワーク(GCN)は、トポロジー駆動のグラフ畳み込み演算を利用して、推論タスクのためにグラフをまたいだ情報を結合する。
我々は、共分散行列をグラフとして、共分散ニューラルネットワーク(VNN)の形でGCNを研究した。
VNNは、GCNからスケールフリーなデータ処理アーキテクチャを継承し、ここでは、共分散行列が極限オブジェクトに収束するデータセットに対して、VNNが性能の転送可能性を示すことを示す。
論文 参考訳(メタデータ) (2023-05-02T22:15:54Z) - Predicting Brain Age using Transferable coVariance Neural Networks [119.45320143101381]
我々は最近,サンプル共分散行列で動作する共分散ニューラルネットワーク(VNN)について検討した。
本稿では,大脳皮質厚みデータを用いた脳年齢推定におけるVNNの有用性を示す。
以上の結果から、VNNは脳年齢推定のためのマルチスケールおよびマルチサイト転送性を示すことが明らかとなった。
アルツハイマー病(AD)の脳年齢の文脈では,健常者に対してVNNを用いて予測される脳年齢がADに対して有意に上昇していることから,VNNの出力は解釈可能であることが示された。
論文 参考訳(メタデータ) (2022-10-28T18:58:34Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Coupling Visual Semantics of Artificial Neural Networks and Human Brain
Function via Synchronized Activations [13.956089436100106]
本稿では,ANNとBNNの視覚的表現空間と意味を結合する新しい計算フレームワーク,Sync-ACTを提案する。
このアプローチにより、人間の脳画像から生物学的に意味のある記述を導き、ANNのニューロンに意味論的に注釈を付けることができる。
論文 参考訳(メタデータ) (2022-06-22T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。