論文の概要: Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features
- arxiv url: http://arxiv.org/abs/2210.06756v2
- Date: Thu, 30 Mar 2023 15:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:01:41.449735
- Title: Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features
- Title(参考訳): 脳-視覚言語特徴のマルチモーダル学習による視覚神経表現の復号
- Authors: Changde Du, Kaicheng Fu, Jinpeng Li, Huiguang He
- Abstract要約: 本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
- 参考スコア(独自算出の注目度): 9.783560855840602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding human visual neural representations is a challenging task with great
scientific significance in revealing vision-processing mechanisms and
developing brain-like intelligent machines. Most existing methods are difficult
to generalize to novel categories that have no corresponding neural data for
training. The two main reasons are 1) the under-exploitation of the multimodal
semantic knowledge underlying the neural data and 2) the small number of paired
(stimuli-responses) training data. To overcome these limitations, this paper
presents a generic neural decoding method called BraVL that uses multimodal
learning of brain-visual-linguistic features. We focus on modeling the
relationships between brain, visual and linguistic features via multimodal deep
generative models. Specifically, we leverage the mixture-of-product-of-experts
formulation to infer a latent code that enables a coherent joint generation of
all three modalities. To learn a more consistent joint representation and
improve the data efficiency in the case of limited brain activity data, we
exploit both intra- and inter-modality mutual information maximization
regularization terms. In particular, our BraVL model can be trained under
various semi-supervised scenarios to incorporate the visual and textual
features obtained from the extra categories. Finally, we construct three
trimodal matching datasets, and the extensive experiments lead to some
interesting conclusions and cognitive insights: 1) decoding novel visual
categories from human brain activity is practically possible with good
accuracy; 2) decoding models using the combination of visual and linguistic
features perform much better than those using either of them alone; 3) visual
perception may be accompanied by linguistic influences to represent the
semantics of visual stimuli. Code and data: https://github.com/ChangdeDu/BraVL.
- Abstract(参考訳): 人間の視覚神経表現の解読は、視覚処理機構の解明や脳のような知的機械の開発において、科学的に非常に重要な課題である。
既存の手法の多くは、トレーニングに対応する神経データを持たない、新しいカテゴリに一般化することが難しい。
2つの主な理由は
1) ニューラルデータの基盤となるマルチモーダル意味知識の過小評価
2) 少数のペア(刺激応答)訓練データ。
これらの制約を克服するために,脳-視覚-言語特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
具体的には,3つのモダリティのコヒーレントな結合生成を可能にする潜在符号を推論するために,その混合式を利用した。
脳活動データに制限がある場合、より一貫性のある共同表現を学習し、データ効率を向上させるために、モーダリティ内およびモーダリティ間相互情報最大化正規化項を利用する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
最後に、3つのトライモーダルマッチングデータセットを構築し、広範な実験によっていくつかの興味深い結論と認知的洞察が得られます。
1)人間の脳活動から新しい視覚カテゴリーを復号することは、精度良く実現可能である。
2) 視覚的特徴と言語的特徴の組み合わせを用いた復号モデルは,両者単独で使用するモデルよりもはるかに優れている。
3)視覚知覚には,視覚刺激の意味を表現する言語的影響が伴う。
コードとデータ:https://github.com/ChangdeDu/BraVL。
関連論文リスト
- Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - Investigating the Encoding of Words in BERT's Neurons using Feature
Textualization [11.943486282441143]
本稿では,埋め込み語空間におけるニューロンの表現を生成する手法を提案する。
生成した表現は、個々のニューロンにおける符号化された知識についての洞察を与えることができる。
論文 参考訳(メタデータ) (2023-11-14T15:21:49Z) - Retinotopy Inspired Brain Encoding Model and the All-for-One Training
Recipe [14.943061215875655]
3つの画像モダリティにまたがる5つの公開データセットから100万以上のデータポイントを用いて、脳エンコーディングモデルを事前訓練した。
本稿では、一般的に使用される視覚バックボーンモデルのドロップイン置換として、事前学習モデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-26T08:06:40Z) - SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal
Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。
SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。
我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文 参考訳(メタデータ) (2023-06-09T17:01:51Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Brainish: Formalizing A Multimodal Language for Intelligence and
Consciousness [23.86633372513335]
我々はBrainishと呼ばれる多モーダル言語のdesiderataについて述べる。
Brainishは、単語、画像、オーディオ、センセーションを組み合わせて、Conscious Turing Machineのプロセッサが通信するために使用する表現で構成されている。
論文 参考訳(メタデータ) (2022-04-14T00:35:52Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。