論文の概要: Multimodal foundation models are better simulators of the human brain
- arxiv url: http://arxiv.org/abs/2208.08263v1
- Date: Wed, 17 Aug 2022 12:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:16:52.374871
- Title: Multimodal foundation models are better simulators of the human brain
- Title(参考訳): マルチモーダル基礎モデルはヒト脳のより良いシミュレータである
- Authors: Haoyu Lu, Qiongyi Zhou, Nanyi Fei, Zhiwu Lu, Mingyu Ding, Jingyuan
Wen, Changde Du, Xin Zhao, Hao Sun, Huiguang He, Ji-Rong Wen
- Abstract要約: 1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
- 参考スコア(独自算出の注目度): 65.10501322822881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning, especially large-scale multimodal pre-training, has
developed rapidly over the past few years and led to the greatest advances in
artificial intelligence (AI). Despite its effectiveness, understanding the
underlying mechanism of multimodal pre-training models still remains a grand
challenge. Revealing the explainability of such models is likely to enable
breakthroughs of novel learning paradigms in the AI field. To this end, given
the multimodal nature of the human brain, we propose to explore the
explainability of multimodal learning models with the aid of non-invasive brain
imaging technologies such as functional magnetic resonance imaging (fMRI).
Concretely, we first present a newly-designed multimodal foundation model
pre-trained on 15 million image-text pairs, which has shown strong multimodal
understanding and generalization abilities in a variety of cognitive downstream
tasks. Further, from the perspective of neural encoding (based on our
foundation model), we find that both visual and lingual encoders trained
multimodally are more brain-like compared with unimodal ones. Particularly, we
identify a number of brain regions where multimodally-trained encoders
demonstrate better neural encoding performance. This is consistent with the
findings in existing studies on exploring brain multi-sensory integration.
Therefore, we believe that multimodal foundation models are more suitable tools
for neuroscientists to study the multimodal signal processing mechanisms in the
human brain. Our findings also demonstrate the potential of multimodal
foundation models as ideal computational simulators to promote both
AI-for-brain and brain-for-AI research.
- Abstract(参考訳): マルチモーダル学習、特に大規模マルチモーダル事前学習は、ここ数年で急速に発展し、人工知能(AI)の最大の進歩につながった。
その効果にもかかわらず、マルチモーダル事前学習モデルの基盤となるメカニズムを理解することは依然として大きな課題である。
このようなモデルの説明可能性を明らかにすることは、AI分野における新しい学習パラダイムのブレークスルーを可能にする可能性がある。
そこで本研究では,ヒト脳のマルチモーダル性を考慮して,機能的磁気共鳴画像(fMRI)などの非侵襲的脳画像技術を用いて,マルチモーダル学習モデルの説明可能性について検討する。
具体的には、まず、1500万の画像テキストペアを事前訓練した、新しく設計されたマルチモーダル基礎モデルを提示し、様々な認知下流タスクにおいて、強力なマルチモーダル理解と一般化能力を示した。
さらに、ニューラルネットワーク(基礎モデルに基づく)の観点から、視覚と言語の両方のエンコーダがマルチモーダルで訓練され、非モーダルのエンコーダよりも脳に近いことが分かりました。
特に,マルチモーダルに訓練されたエンコーダがより優れた神経エンコーディング性能を示す多くの脳領域を同定する。
これは、既存の脳多感覚統合研究の成果と一致している。
したがって、マルチモーダル基礎モデルは、脳におけるマルチモーダルシグナル処理機構を研究する神経科学者にとってより適したツールであると信じている。
また,脳と脳の両方の研究を促進するための計算シミュレータとして,マルチモーダル基礎モデルの可能性を示した。
関連論文リスト
- Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - Revealing Vision-Language Integration in the Brain with Multimodal Networks [21.88969136189006]
我々は,ヒト脳のマルチモーダルな統合部位を,ヒトが映画を観ている最中のステレオ脳波(SEEG)記録を予測することにより探索するために,マルチディープニューラルネットワーク(DNN)を用いた。
マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
論文 参考訳(メタデータ) (2024-06-20T16:43:22Z) - Foundations of Multisensory Artificial Intelligence [32.56967614091527]
この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。
第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。
第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
論文 参考訳(メタデータ) (2024-04-29T14:45:28Z) - Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain [5.496000639803771]
本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
論文 参考訳(メタデータ) (2023-11-13T21:32:37Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - Self-supervised multimodal neuroimaging yields predictive
representations for a spectrum of Alzheimer's phenotypes [27.331511924585023]
この研究は、マルチモーダル・ニューロイメージングデータから複数の表現を学習するための、新しいマルチスケール協調フレームワークを提案する。
本稿では,情報誘導バイアスの一般的な分類法を提案する。
自己教師型モデルでは,事前トレーニング中にラベルにアクセスすることなく,障害関連脳領域とマルチモーダルリンクを明らかにする。
論文 参考訳(メタデータ) (2022-09-07T01:37:19Z) - Brainish: Formalizing A Multimodal Language for Intelligence and
Consciousness [23.86633372513335]
我々はBrainishと呼ばれる多モーダル言語のdesiderataについて述べる。
Brainishは、単語、画像、オーディオ、センセーションを組み合わせて、Conscious Turing Machineのプロセッサが通信するために使用する表現で構成されている。
論文 参考訳(メタデータ) (2022-04-14T00:35:52Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。