論文の概要: MIRAGE: Robust multi-modal architectures translate fMRI-to-image models from vision to mental imagery
- arxiv url: http://arxiv.org/abs/2605.17198v1
- Date: Sat, 16 May 2026 23:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.731784
- Title: MIRAGE: Robust multi-modal architectures translate fMRI-to-image models from vision to mental imagery
- Title(参考訳): MIRAGE:ロバストなマルチモーダルアーキテクチャはfMRI-to-imageモデルを視覚から精神イメージに翻訳する
- Authors: Reese Kneeland, Cesar Kadir Torrico Villanueva, Jordyn Ojeda, Shuhb Khanna, Jonathan Xu, Paul S. Scotti, Thomas Naselaris,
- Abstract要約: MIRAGEは、視覚データセットをトレーニングし、脳の活動からメンタルイメージをクロスデコードするように設計された方法である。
我々は,デコーダが画像特徴を比較的少ない次元で使用する場合に,心的イメージ再構成が最適であることを示す。
- 参考スコア(独自算出の注目度): 3.24465146296532
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To be useful for downstream applications, vision decoding models that are trained to reconstruct seen images from human brain activity must be able to generalize to internally generated visual representations, i.e., mental images. In an analysis of the recently released NSD-Imagery dataset, we demonstrated that while some modern vision decoders can perform quite well on mental image reconstruction, some fail, and that state-of-the-art (SOTA) performance on seen image reconstruction is no guarantee of SOTA performance on mental image reconstruction. Motivated by these findings, we developed MIRAGE, a method explicitly designed to train on vision datasets and cross-decode mental images from brain activity. MIRAGE employs a linear backbone and multi-modal text and image features as input to a diffusion model. Feature metrics and human raters establish MIRAGE as SOTA for mental image reconstruction on the NSD-Imagery benchmark. With ablation analysis we show that mental image reconstruction works best when decoders use image features with relatively few dimensions and include guidance from text-based and both high- and low-level image-based features. Our work indicates that--given the right architecture--existing large-scale datasets using external stimuli are viable training data for decoding mental images, and warrant optimism about the future success and utility of mental image reconstruction.
- Abstract(参考訳): 下流のアプリケーションに役立てるためには、人間の脳活動から見えるイメージを再構築するために訓練された視覚復号モデルは、内部で生成された視覚的表現、すなわちメンタルイメージに一般化できなければならない。
最近リリースされたNSD-Imageryデータセットの分析において、現代の視覚デコーダは、精神画像再構成においてかなりよく機能するが、一部は失敗し、画像再構成における最先端(SOTA)のパフォーマンスは、精神画像再構成におけるSOTAパフォーマンスの保証ではないことを示した。
これらの知見に触発され,脳活動から視覚データセットをトレーニングし,メンタルイメージをクロスデコードする手法であるMIRAGEを開発した。
MIRAGEは線形バックボーンとマルチモーダルテキストと画像特徴を拡散モデルへの入力として採用している。
NSD-Imageryベンチマークにおいて、特徴量と人間のレーダは、精神画像再構成のためのSOTAとしてMIRAGEを確立する。
アブレーション解析により、デコーダが比較的少ない次元のイメージ特徴を使い、テキストベースおよび高レベル画像と低レベル画像の両方からのガイダンスを含む場合、心的イメージ再構成が最善であることを示す。
外部刺激を用いた大規模データセットは、心的イメージの復号化のための訓練データであり、心的イメージ再構成の今後の成功と有用性に関する楽観性を保証している。
関連論文リスト
- NSD-Imagery: A benchmark dataset for extending fMRI vision decoding methods to mental imagery [0.33654492025566546]
NSD-Imageryは精神画像と組み合わせた人間のfMRI活動のベンチマークデータセットである。
心的画像における復号法の性能は、視覚再建における性能と大きく切り離されていることを示す。
論文 参考訳(メタデータ) (2025-06-07T19:11:24Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI [36.181302575642306]
視覚的想像力の再構築は、潜在的に革命的なアプリケーションにおいて、より大きな課題をもたらす。
私たちは初めて、視覚画像に関するかなりのデータセット(約6hのスキャン)をコンパイルしました。
我々は、fMRI-to-imageモデルの修正版を訓練し、2つのイマジネーションのモードから画像の再構成が可能であることを実証する。
論文 参考訳(メタデータ) (2024-04-08T12:46:39Z) - Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning
and Diffusion Priors [5.055354526753589]
MindEyeは、脳の活動から観察された画像を検索して再構成するための、fMRI-to-imageアプローチである。
我々は,MindEyeが修復作業と検索作業の両方において最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-29T17:49:00Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。