論文の概要: Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.17914v2
- Date: Wed, 23 Apr 2025 12:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.895175
- Title: Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた概念処理におけるマルチモーダル統合のモデル化
- Authors: Anna Bavaresco, Marianne de Heer Kloots, Sandro Pezzelle, Raquel Fernández,
- Abstract要約: 視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
- 参考スコア(独自算出の注目度): 7.511284868070148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text representations from language models have proven remarkably predictive of human neural activity involved in language processing, with the recent transformer-based models outperforming previous architectures in downstream tasks and prediction of brain responses. However, the word representations learnt by language-only models may be limited in that they lack sensory information from other modalities, which several cognitive and neuroscience studies showed to be reflected in human meaning representations. Here, we leverage current pre-trained vision-language models (VLMs) to investigate whether the integration of visuo-linguistic information they operate leads to representations that are more aligned with human brain activity than those obtained by models trained with language-only input. We focus on fMRI responses recorded while participants read concept words in the context of either a full sentence or a picture. Our results reveal that VLM representations correlate more strongly than those by language-only models with activations in brain areas functionally related to language processing. Additionally, we find that transformer-based vision-language encoders -- e.g., LXMERT and VisualBERT -- yield more brain-aligned representations than generative VLMs, whose autoregressive abilities do not seem to provide an advantage when modelling single words. Finally, our ablation analyses suggest that the high brain alignment achieved by some of the VLMs we evaluate results from semantic information acquired specifically during multimodal pretraining as opposed to being already encoded in their unimodal modules. Altogether, our findings indicate an advantage of multimodal models in predicting human brain activations, which reveals that modelling language and vision integration has the potential to capture the multimodal nature of human concept representations.
- Abstract(参考訳): 言語モデルからのテキスト表現は、言語処理に関わる人間の神経活動を著しく予測していることが証明されている。
しかしながら、言語のみのモデルによって学習される表現は、他のモダリティからの感覚情報が欠如していることで制限される可能性がある。
ここでは、現在トレーニング済みの視覚言語モデル(VLM)を活用し、それらが動作しているビジュオ言語情報の統合が、言語のみの入力で訓練されたモデルよりも人間の脳活動に整合した表現につながるかどうかを調査する。
参加者は、全文または画像の文脈で概念語を読みながら記録されたfMRI応答に注目した。
以上の結果から,VLM表現は言語のみのモデルと,言語処理と機能的に関連する脳領域の活性化との相関が強いことが明らかとなった。
さらに、トランスフォーマーベースの視覚言語エンコーダ(例えば、LXMERT、VisualBERT)は、単一の単語をモデル化する際、自己回帰能力が有利でない生成型VLMよりも脳に適応した表現が得られることが判明した。
最後に, VLMのいくつかによって達成された高次脳アライメントは, マルチモーダル前訓練中に獲得した意味情報から得られる結果であり, 既にモチーフモジュールにエンコードされているわけではないことを示唆する。
また,人間の脳活動の予測におけるマルチモーダルモデルの有用性が示唆され,モデリング言語と視覚統合が人間の概念表現のマルチモーダルな性質を捉える可能性を示唆している。
関連論文リスト
- Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - Revealing Vision-Language Integration in the Brain with Multimodal Networks [21.88969136189006]
我々は,ヒト脳のマルチモーダルな統合部位を,ヒトが映画を観ている最中のステレオ脳波(SEEG)記録を予測することにより探索するために,マルチディープニューラルネットワーク(DNN)を用いた。
マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
論文 参考訳(メタデータ) (2024-06-20T16:43:22Z) - MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。
我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。
MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文 参考訳(メタデータ) (2024-05-29T06:55:03Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Revealing the Parallel Multilingual Learning within Large Language Models [50.098518799536144]
本研究では,多言語大言語モデル(LLM)の文脈内学習能力を明らかにする。
入力を複数の言語に翻訳することで、並列入力(PiM)をLLMに提供し、その理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-14T03:33:46Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Transferability of coVariance Neural Networks and Application to
Interpretable Brain Age Prediction using Anatomical Features [119.45320143101381]
グラフ畳み込みネットワーク(GCN)は、トポロジー駆動のグラフ畳み込み演算を利用して、推論タスクのためにグラフをまたいだ情報を結合する。
我々は、共分散行列をグラフとして、共分散ニューラルネットワーク(VNN)の形でGCNを研究した。
VNNは、GCNからスケールフリーなデータ処理アーキテクチャを継承し、ここでは、共分散行列が極限オブジェクトに収束するデータセットに対して、VNNが性能の転送可能性を示すことを示す。
論文 参考訳(メタデータ) (2023-05-02T22:15:54Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Predicting Brain Age using Transferable coVariance Neural Networks [119.45320143101381]
我々は最近,サンプル共分散行列で動作する共分散ニューラルネットワーク(VNN)について検討した。
本稿では,大脳皮質厚みデータを用いた脳年齢推定におけるVNNの有用性を示す。
以上の結果から、VNNは脳年齢推定のためのマルチスケールおよびマルチサイト転送性を示すことが明らかとなった。
アルツハイマー病(AD)の脳年齢の文脈では,健常者に対してVNNを用いて予測される脳年齢がADに対して有意に上昇していることから,VNNの出力は解釈可能であることが示された。
論文 参考訳(メタデータ) (2022-10-28T18:58:34Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Coupling Visual Semantics of Artificial Neural Networks and Human Brain
Function via Synchronized Activations [13.956089436100106]
本稿では,ANNとBNNの視覚的表現空間と意味を結合する新しい計算フレームワーク,Sync-ACTを提案する。
このアプローチにより、人間の脳画像から生物学的に意味のある記述を導き、ANNのニューロンに意味論的に注釈を付けることができる。
論文 参考訳(メタデータ) (2022-06-22T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。