論文の概要: Brain-IT-VQA: From Brain Signals to Answers
- arxiv url: http://arxiv.org/abs/2605.29588v1
- Date: Thu, 28 May 2026 08:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.072872
- Title: Brain-IT-VQA: From Brain Signals to Answers
- Title(参考訳): 脳-IT-VQA:脳信号から回答へ
- Authors: Roman Beliy, Matias Cosarinsky, Oliver Heinimann, Navve Wasserman, Michal Irani,
- Abstract要約: 画像を見ている間に記録されたfMRI信号から視覚コンテンツをデコードすることは、長年の課題である。
本稿では,fMRIによる視覚的質問応答のためのフレームワークであるBrain-IT-VQAを提案する。
我々は,fMRIによる視覚的質問応答のための新しいデータセットとベンチマークであるNSD-VQAを紹介する。
- 参考スコア(独自算出の注目度): 6.890296061697977
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Decoding visual content from fMRI signals recorded while a person views images, and specifically answering questions about the seen images, is a long-standing challenge. While significant progress has been made in recent years in visual question answering (VQA) from fMRI, performance remains limited. Moreover, although recent models can make increasingly accurate predictions, they have rarely been used as tools for understanding the structure of visual representations in the brain. We present Brain-IT-VQA, a framework for visual question answering from fMRI. Building on the Brain Interaction Transformer (Brain-IT), our method decodes language tokens from brain activity and integrates them with a language model to answer visual questions. Our model substantially outperforms previous fMRI-based captioning and VQA approaches. We further introduce NSD-VQA, a new dataset and benchmark for visual question answering from fMRI. Unlike existing image-fMRI VQA datasets, which typically provide only a few broad and weakly controlled questions per image, NSD-VQA provides on average 20 question-answer pairs per image across 20 controlled question categories that disentangle multiple levels of visual understanding. This enables more reliable and interpretable evaluation despite limited fMRI test data. Together, Brain-IT-VQA and NSD-VQA provide both a strong predictive framework and a tool for studying brain representations. Using this benchmark, we quantify which forms of visual and semantic information can be reliably decoded from fMRI responses to natural images. We further analyze the contributions of different brain regions across question types.
- Abstract(参考訳): 画像を見ながら記録されたfMRI信号から視覚コンテンツをデコードし、特に画像に関する疑問に答えることは、長年の課題である。
近年,fMRIによる視覚的質問応答 (VQA) の進歩は著しいが,性能は依然として限られている。
さらに、最近のモデルはより正確な予測を行うことができるが、脳内の視覚的表現の構造を理解するための道具として使われることはめったにない。
本稿では,fMRIによる視覚的質問応答のためのフレームワークであるBrain-IT-VQAを提案する。
脳相互作用変換器(Brain-IT)上に構築し、脳活動から言語トークンをデコードし、言語モデルと統合して視覚的質問に答える。
本モデルは,従来のfMRIによるキャプションとVQAアプローチよりも大幅に優れていた。
さらに、fMRIによる視覚的質問応答のための新しいデータセットとベンチマークであるNSD-VQAを紹介する。
NSD-VQAは、画像ごとの平均20の質問対を、複数のレベルの視覚的理解を阻害する20の制御された質問カテゴリで提供する。
これにより、fMRIテストデータに制限があるにもかかわらず、より信頼性が高く解釈可能な評価が可能になる。
Brain-IT-VQAとNSD-VQAは共に、強力な予測フレームワークと、脳表現を研究するためのツールを提供する。
このベンチマークを用いて、自然画像へのfMRI応答から、どの形態の視覚情報や意味情報を確実に復号化できるかを定量化する。
さらに、質問の種類によって異なる脳領域のコントリビューションを分析する。
関連論文リスト
- A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli [26.07986165893441]
脳信号を復号して刺激を再構築することで、AI、疾患治療、脳とコンピュータのインターフェースの進歩を加速させる。
ニューロイメージングおよび画像生成モデルの最近の進歩は、fMRIに基づくデコードを大幅に改善した。
本研究は、受動的脳信号からの刺激再構成に焦点を当て、fMRIに基づく脳のデコーディングの最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-03-20T09:23:07Z) - BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindShot: Brain Decoding Framework Using Only One Image [21.53687547774089]
MindShotは、クロスオブジェクトの事前知識を活用することで、効果的に数発のブレインデコーディングを実現するために提案されている。
新しい被験者と事前訓練された個人は、同じ意味クラスのイメージのみを見る必要があり、モデルの適用性を大幅に拡大する。
論文 参考訳(メタデータ) (2024-05-24T07:07:06Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。