論文の概要: BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex
Selectivity
- arxiv url: http://arxiv.org/abs/2310.04420v1
- Date: Fri, 6 Oct 2023 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 12:42:51.859037
- Title: BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex
Selectivity
- Title(参考訳): brainscuba: 視覚野選択性の細かな自然言語キャプション
- Authors: Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe
- Abstract要約: そこで本研究では,関心のボクセルを最大に活性化する画像に対して,自然言語記述を生成するデータ駆動方式を提案する。
高次視覚領域にまたがる微細なボクセルレベルのキャプションにより,本手法の有効性を検証した。
そこで我々は,脳内の「個人」表現の分布に関する探索的研究を行った。
- 参考スコア(独自算出の注目度): 6.866437017874623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the functional organization of higher visual cortex is a
central focus in neuroscience. Past studies have primarily mapped the visual
and semantic selectivity of neural populations using hand-selected stimuli,
which may potentially bias results towards pre-existing hypotheses of visual
cortex functionality. Moving beyond conventional approaches, we introduce a
data-driven method that generates natural language descriptions for images
predicted to maximally activate individual voxels of interest. Our method --
Semantic Captioning Using Brain Alignments ("BrainSCUBA") -- builds upon the
rich embedding space learned by a contrastive vision-language model and
utilizes a pre-trained large language model to generate interpretable captions.
We validate our method through fine-grained voxel-level captioning across
higher-order visual regions. We further perform text-conditioned image
synthesis with the captions, and show that our images are semantically coherent
and yield high predicted activations. Finally, to demonstrate how our method
enables scientific discovery, we perform exploratory investigations on the
distribution of "person" representations in the brain, and discover
fine-grained semantic selectivity in body-selective areas. Unlike earlier
studies that decode text, our method derives voxel-wise captions of semantic
selectivity. Our results show that BrainSCUBA is a promising means for
understanding functional preferences in the brain, and provides motivation for
further hypothesis-driven investigation of visual cortex.
- Abstract(参考訳): 高次視覚野の機能的構造を理解することは神経科学の中心である。
過去の研究では主に、手選択された刺激を用いて、神経集団の視覚的および意味的選択性を地図化してきた。
従来のアプローチを超えて,興味のある個々のボクセルを最大に活性化するように予測した画像に対して自然言語記述を生成するデータ駆動方式を提案する。
提案手法は,脳機能を利用したセマンティックキャプション(BrainSCUBA)を用いて,コントラスト型視覚言語モデルで学習し,事前学習した大言語モデルを用いて解釈可能なキャプションを生成する。
本手法は高次視覚領域にまたがるvoxelレベルキャプションを用いて検証する。
さらに,キャプションを用いたテキストコンディション画像合成を行い,画像が意味的にコヒーレントであり,高い予測アクティベーションが得られることを示す。
最後に,本手法が科学的発見を可能にすることを示すために,脳内における「人」表現の分布に関する探索的調査を行い,身体選択領域におけるきめ細かい意味選択性を見出した。
テキストをデコードする以前の研究とは異なり、本手法は意味的選択性のvoxel-wiseキャプションに由来する。
以上の結果から,brainscubaは脳の機能的嗜好を理解するための有望な手段であり,視覚野のさらなる仮説駆動研究の動機となっている。
関連論文リスト
- Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers [5.265058307999745]
本稿では,脳内視覚概念を分離するBrainSAILを紹介する。
BrainSAILは、事前訓練された視覚モデルから意味的に一貫性があり、密集した空間的特徴を利用する。
カテゴリー選択性のある大脳皮質領域におけるBrainSAILの評価を行った。
論文 参考訳(メタデータ) (2024-10-07T17:59:45Z) - A generative framework to bridge data-driven models and scientific theories in language neuroscience [84.76462599023802]
脳内の言語選択性の簡潔な説明を生成するためのフレームワークである生成的説明媒介バリデーションを提案する。
本研究では,説明精度が基礎となる統計モデルの予測力と安定性と密接に関連していることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。
我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。
MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文 参考訳(メタデータ) (2024-05-29T06:55:03Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Brain Diffusion for Visual Exploration: Cortical Discovery using Large
Scale Generative Models [6.866437017874623]
我々は,自然画像とfMRI記録を用いて,与えられた脳領域を活性化するために予測される画像を合成する,データ駆動型アプローチを提案する。
提案手法は,脳誘導画像合成と大規模拡散モデルを組み合わせた最近の生成法に基づいている。
これらの結果は、人間の視覚野の微細な機能的構造に対する理解を深めるものである。
論文 参考訳(メタデータ) (2023-06-05T17:59:05Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Semantic Brain Decoding: from fMRI to conceptually similar image
reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。
我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。
視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文 参考訳(メタデータ) (2022-12-13T16:54:08Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。