論文の概要: Multimodal foundation models are better simulators of the human brain
- arxiv url: http://arxiv.org/abs/2208.08263v1
- Date: Wed, 17 Aug 2022 12:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:16:52.374871
- Title: Multimodal foundation models are better simulators of the human brain
- Title(参考訳): マルチモーダル基礎モデルはヒト脳のより良いシミュレータである
- Authors: Haoyu Lu, Qiongyi Zhou, Nanyi Fei, Zhiwu Lu, Mingyu Ding, Jingyuan
Wen, Changde Du, Xin Zhao, Hao Sun, Huiguang He, Ji-Rong Wen
- Abstract要約: 1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
- 参考スコア(独自算出の注目度): 65.10501322822881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning, especially large-scale multimodal pre-training, has
developed rapidly over the past few years and led to the greatest advances in
artificial intelligence (AI). Despite its effectiveness, understanding the
underlying mechanism of multimodal pre-training models still remains a grand
challenge. Revealing the explainability of such models is likely to enable
breakthroughs of novel learning paradigms in the AI field. To this end, given
the multimodal nature of the human brain, we propose to explore the
explainability of multimodal learning models with the aid of non-invasive brain
imaging technologies such as functional magnetic resonance imaging (fMRI).
Concretely, we first present a newly-designed multimodal foundation model
pre-trained on 15 million image-text pairs, which has shown strong multimodal
understanding and generalization abilities in a variety of cognitive downstream
tasks. Further, from the perspective of neural encoding (based on our
foundation model), we find that both visual and lingual encoders trained
multimodally are more brain-like compared with unimodal ones. Particularly, we
identify a number of brain regions where multimodally-trained encoders
demonstrate better neural encoding performance. This is consistent with the
findings in existing studies on exploring brain multi-sensory integration.
Therefore, we believe that multimodal foundation models are more suitable tools
for neuroscientists to study the multimodal signal processing mechanisms in the
human brain. Our findings also demonstrate the potential of multimodal
foundation models as ideal computational simulators to promote both
AI-for-brain and brain-for-AI research.
- Abstract(参考訳): マルチモーダル学習、特に大規模マルチモーダル事前学習は、ここ数年で急速に発展し、人工知能(AI)の最大の進歩につながった。
その効果にもかかわらず、マルチモーダル事前学習モデルの基盤となるメカニズムを理解することは依然として大きな課題である。
このようなモデルの説明可能性を明らかにすることは、AI分野における新しい学習パラダイムのブレークスルーを可能にする可能性がある。
そこで本研究では,ヒト脳のマルチモーダル性を考慮して,機能的磁気共鳴画像(fMRI)などの非侵襲的脳画像技術を用いて,マルチモーダル学習モデルの説明可能性について検討する。
具体的には、まず、1500万の画像テキストペアを事前訓練した、新しく設計されたマルチモーダル基礎モデルを提示し、様々な認知下流タスクにおいて、強力なマルチモーダル理解と一般化能力を示した。
さらに、ニューラルネットワーク(基礎モデルに基づく)の観点から、視覚と言語の両方のエンコーダがマルチモーダルで訓練され、非モーダルのエンコーダよりも脳に近いことが分かりました。
特に,マルチモーダルに訓練されたエンコーダがより優れた神経エンコーディング性能を示す多くの脳領域を同定する。
これは、既存の脳多感覚統合研究の成果と一致している。
したがって、マルチモーダル基礎モデルは、脳におけるマルチモーダルシグナル処理機構を研究する神経科学者にとってより適したツールであると信じている。
また,脳と脳の両方の研究を促進するための計算シミュレータとして,マルチモーダル基礎モデルの可能性を示した。
関連論文リスト
- MMToM-QA: Multimodal Theory of Mind Question Answering [83.5664938147883]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Joint Self-Supervised and Supervised Contrastive Learning for Multimodal
MRI Data: Towards Predicting Abnormal Neurodevelopment [5.771221868064265]
マルチモーダルMRIデータから頑健な潜在特徴表現を学習するための,新しい自己教師付きコントラスト学習法を提案する。
本手法は,マルチモーダルデータの活用により,臨床実習におけるコンピュータ支援診断を容易にする能力を有する。
論文 参考訳(メタデータ) (2023-12-22T21:05:51Z) - Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain [5.496000639803771]
本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
論文 参考訳(メタデータ) (2023-11-13T21:32:37Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文 参考訳(メタデータ) (2022-10-13T05:49:33Z) - Self-supervised multimodal neuroimaging yields predictive
representations for a spectrum of Alzheimer's phenotypes [27.331511924585023]
この研究は、マルチモーダル・ニューロイメージングデータから複数の表現を学習するための、新しいマルチスケール協調フレームワークを提案する。
本稿では,情報誘導バイアスの一般的な分類法を提案する。
自己教師型モデルでは,事前トレーニング中にラベルにアクセスすることなく,障害関連脳領域とマルチモーダルリンクを明らかにする。
論文 参考訳(メタデータ) (2022-09-07T01:37:19Z) - Brainish: Formalizing A Multimodal Language for Intelligence and
Consciousness [23.86633372513335]
我々はBrainishと呼ばれる多モーダル言語のdesiderataについて述べる。
Brainishは、単語、画像、オーディオ、センセーションを組み合わせて、Conscious Turing Machineのプロセッサが通信するために使用する表現で構成されている。
論文 参考訳(メタデータ) (2022-04-14T00:35:52Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。