Fugu-MT 論文翻訳(概要): Multimodal foundation models are better simulators of the human brain

論文の概要: Multimodal foundation models are better simulators of the human brain

arxiv url: http://arxiv.org/abs/2208.08263v1
Date: Wed, 17 Aug 2022 12:36:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-18 12:16:52.374871
Title: Multimodal foundation models are better simulators of the human brain
Title（参考訳）: マルチモーダル基礎モデルはヒト脳のより良いシミュレータである
Authors: Haoyu Lu, Qiongyi Zhou, Nanyi Fei, Zhiwu Lu, Mingyu Ding, Jingyuan Wen, Changde Du, Xin Zhao, Hao Sun, Huiguang He, Ji-Rong Wen
Abstract要約: 1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
参考スコア（独自算出の注目度）: 65.10501322822881
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal learning, especially large-scale multimodal pre-training, has developed rapidly over the past few years and led to the greatest advances in artificial intelligence (AI). Despite its effectiveness, understanding the underlying mechanism of multimodal pre-training models still remains a grand challenge. Revealing the explainability of such models is likely to enable breakthroughs of novel learning paradigms in the AI field. To this end, given the multimodal nature of the human brain, we propose to explore the explainability of multimodal learning models with the aid of non-invasive brain imaging technologies such as functional magnetic resonance imaging (fMRI). Concretely, we first present a newly-designed multimodal foundation model pre-trained on 15 million image-text pairs, which has shown strong multimodal understanding and generalization abilities in a variety of cognitive downstream tasks. Further, from the perspective of neural encoding (based on our foundation model), we find that both visual and lingual encoders trained multimodally are more brain-like compared with unimodal ones. Particularly, we identify a number of brain regions where multimodally-trained encoders demonstrate better neural encoding performance. This is consistent with the findings in existing studies on exploring brain multi-sensory integration. Therefore, we believe that multimodal foundation models are more suitable tools for neuroscientists to study the multimodal signal processing mechanisms in the human brain. Our findings also demonstrate the potential of multimodal foundation models as ideal computational simulators to promote both AI-for-brain and brain-for-AI research.
Abstract（参考訳）: マルチモーダル学習、特に大規模マルチモーダル事前学習は、ここ数年で急速に発展し、人工知能(AI)の最大の進歩につながった。その効果にもかかわらず、マルチモーダル事前学習モデルの基盤となるメカニズムを理解することは依然として大きな課題である。このようなモデルの説明可能性を明らかにすることは、AI分野における新しい学習パラダイムのブレークスルーを可能にする可能性がある。そこで本研究では,ヒト脳のマルチモーダル性を考慮して,機能的磁気共鳴画像(fMRI)などの非侵襲的脳画像技術を用いて,マルチモーダル学習モデルの説明可能性について検討する。具体的には、まず、1500万の画像テキストペアを事前訓練した、新しく設計されたマルチモーダル基礎モデルを提示し、様々な認知下流タスクにおいて、強力なマルチモーダル理解と一般化能力を示した。さらに、ニューラルネットワーク(基礎モデルに基づく)の観点から、視覚と言語の両方のエンコーダがマルチモーダルで訓練され、非モーダルのエンコーダよりも脳に近いことが分かりました。特に,マルチモーダルに訓練されたエンコーダがより優れた神経エンコーディング性能を示す多くの脳領域を同定する。これは、既存の脳多感覚統合研究の成果と一致している。したがって、マルチモーダル基礎モデルは、脳におけるマルチモーダルシグナル処理機構を研究する神経科学者にとってより適したツールであると信じている。また,脳と脳の両方の研究を促進するための計算シミュレータとして,マルチモーダル基礎モデルの可能性を示した。

関連論文リスト

BrainFLORA: Uncovering Brain Concept Representation via Multimodal Neural Embeddings [10.966252877363512]
我々は、相互モーダルなニューロイメージングデータを統合する統合フレームワークBrainFLORAを導入し、共有されたニューラル表現を構築する。提案手法では,マルチモーダル大規模言語モデル (MLLM) に適応型アダプタとタスクデコーダを付加し,共同オブジェクト視覚検索における最先端性能を実現する。 BrainFLORAは認知神経科学と脳-コンピュータインターフェース(BCI)に新しい意味を与える
論文参考訳（メタデータ） (2025-07-13T18:56:17Z)
Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文参考訳（メタデータ） (2025-06-05T16:10:47Z)
Multi-modal brain encoding models for multi-modal stimuli [16.324962030831273]
マルチモーダルトランスフォーマーモデルは、違和感のない表現であっても、視覚的な脳活動を予測することができる。この研究は、脳のどの領域が単一モーダルとマルチモーダルの情報を処理するかを特定するのに役立ちます。
論文参考訳（メタデータ） (2025-05-26T14:17:08Z)
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence [12.09002670544188]
脳は逆効果現象を呈し、弱く、より強い多感的な統合効果をもたらす。この生物学的メカニズムに着想を得て,逆効果駆動型マルチモーダル融合(IEMF)戦略を提案する。この戦略をニューラルネットワークに組み込むことで、モデル性能の向上と計算効率の向上により、より効率的な統合を実現する。
論文参考訳（メタデータ） (2025-05-15T11:08:50Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文参考訳（メタデータ） (2024-10-25T13:15:17Z)
Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。 AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文参考訳（メタデータ） (2024-07-25T17:46:38Z)
Revealing Vision-Language Integration in the Brain with Multimodal Networks [21.88969136189006]
我々は,ヒト脳のマルチモーダルな統合部位を,ヒトが映画を観ている最中のステレオ脳波(SEEG)記録を予測することにより探索するために,マルチディープニューラルネットワーク(DNN)を用いた。マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
論文参考訳（メタデータ） (2024-06-20T16:43:22Z)
Foundations of Multisensory Artificial Intelligence [32.56967614091527]
この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
論文参考訳（メタデータ） (2024-04-29T14:45:28Z)
Vision-Language Integration in Multimodal Video Transformers (Partially) Aligns with the Brain [5.496000639803771]
本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
論文参考訳（メタデータ） (2023-11-13T21:32:37Z)
Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文参考訳（メタデータ） (2023-05-25T16:29:16Z)
Self-supervised multimodal neuroimaging yields predictive representations for a spectrum of Alzheimer's phenotypes [27.331511924585023]
この研究は、マルチモーダル・ニューロイメージングデータから複数の表現を学習するための、新しいマルチスケール協調フレームワークを提案する。本稿では,情報誘導バイアスの一般的な分類法を提案する。自己教師型モデルでは,事前トレーニング中にラベルにアクセスすることなく,障害関連脳領域とマルチモーダルリンクを明らかにする。
論文参考訳（メタデータ） (2022-09-07T01:37:19Z)
Brainish: Formalizing A Multimodal Language for Intelligence and Consciousness [23.86633372513335]
我々はBrainishと呼ばれる多モーダル言語のdesiderataについて述べる。 Brainishは、単語、画像、オーディオ、センセーションを組み合わせて、Conscious Turing Machineのプロセッサが通信するために使用する表現で構成されている。
論文参考訳（メタデータ） (2022-04-14T00:35:52Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。