論文の概要: SynMind: Reducing Semantic Hallucination in fMRI-Based Image Reconstruction
- arxiv url: http://arxiv.org/abs/2601.17857v1
- Date: Sun, 25 Jan 2026 14:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.433862
- Title: SynMind: Reducing Semantic Hallucination in fMRI-Based Image Reconstruction
- Title(参考訳): SynMind:fMRI画像再構成における意味幻覚の低減
- Authors: Lan Yang, Minghan Yang, Ke Li, Honggang Zhang, Kaiyue Pang, Yi-Zhe Song,
- Abstract要約: 既存の手法は、明示的な意味的アイデンティティよりも、絡み合った視覚的埋め込みに強く依存している、と我々は主張する。
我々はfMRI信号を、人間の視覚理解の階層的・構成的性質を反映したリッチで文レベルの意味記述に解析する。
そこで我々は,これらの明示的なセマンティックエンコーディングを視覚的プリエンプションと統合したフレームワークであるSynMindを提案する。
- 参考スコア(独自算出の注目度): 52.34513874272676
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in fMRI-based image reconstruction have achieved remarkable photo-realistic fidelity. Yet, a persistent limitation remains: while reconstructed images often appear naturalistic and holistically similar to the target stimuli, they frequently suffer from severe semantic misalignment -- salient objects are often replaced or hallucinated despite high visual quality. In this work, we address this limitation by rethinking the role of explicit semantic interpretation in fMRI decoding. We argue that existing methods rely too heavily on entangled visual embeddings which prioritize low-level appearance cues -- such as texture and global gist -- over explicit semantic identity. To overcome this, we parse fMRI signals into rich, sentence-level semantic descriptions that mirror the hierarchical and compositional nature of human visual understanding. We achieve this by leveraging grounded VLMs to generate synthetic, human-like, multi-granularity textual representations that capture object identities and spatial organization. Built upon this foundation, we propose SynMind, a framework that integrates these explicit semantic encodings with visual priors to condition a pretrained diffusion model. Extensive experiments demonstrate that SynMind outperforms state-of-the-art methods across most quantitative metrics. Notably, by offloading semantic reasoning to our text-alignment module, SynMind surpasses competing methods based on SDXL while using the much smaller Stable Diffusion 1.4 and a single consumer GPU. Large-scale human evaluations further confirm that SynMind produces reconstructions more consistent with human visual perception. Neurovisualization analyses reveal that SynMind engages broader and more semantically relevant brain regions, mitigating the over-reliance on high-level visual areas.
- Abstract(参考訳): fMRIによる画像再構成の最近の進歩は、顕著な写実性を実現している。
再建された画像は、しばしば標的の刺激と自然に似ており、ホログラム的に似ているが、深刻な意味的ミスアライメントに悩まされることが多い。
本研究では,fMRIデコーディングにおける意味論的解釈の役割を再考することにより,この制限に対処する。
既存の手法は、明示的なセマンティックアイデンティティよりも、テクスチャやグローバルジストといった低レベルな外観のキューを優先する、絡み合った視覚的な埋め込みに強く依存している、と我々は主張する。
これを解決するために、fMRI信号を、人間の視覚理解の階層的・構成的性質を反映したリッチで文レベルの意味記述にパースする。
我々は,VLMを利用して,オブジェクトの同一性や空間的構造を捉えた,人工的,人間的,多粒度なテキスト表現を生成する。
この基盤の上に構築されたSynMindは,これらの明示的なセマンティックエンコーディングを視覚的先行と統合し,事前学習した拡散モデルを記述するフレームワークである。
大規模な実験により、SynMindは最も定量的な指標で最先端の手法より優れていることが示される。
特に、テキストアライメントモジュールにセマンティック推論をオフロードすることで、SynMindはSDXLに基づく競合メソッドを超越し、はるかに小さなStable Diffusion 1.4と1つのコンシューマGPUを使用します。
大規模な人間の評価により、SynMindは人間の視覚的知覚とより整合した再構成を生成することが確認される。
神経視覚化分析により、SynMindはより広く、より意味的に関連する脳領域に関わり、高レベルの視覚領域における過度な信頼を軽減していることが明らかとなった。
関連論文リスト
- Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI [39.952672554797125]
我々は、fMRI信号が、視覚ベースの空間や共同テキスト画像空間よりも、言語モデルのテキスト空間によく似ていることを示す。
視覚刺激再構成のためのメディア間表現として,fMRI sIgnals を構造化テキスト空間に投影するモデル PRISM を提案する。
論文 参考訳(メタデータ) (2025-10-17T20:18:06Z) - SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - Perception Activator: An intuitive and portable framework for brain cognitive exploration [19.851643249367108]
干渉条件としてfMRI表現を用いる実験フレームワークを開発した。
オブジェクト検出とインスタンス分割タスクにおける下流性能と中間的特徴の変化をfMRI情報の有無で比較した。
以上の結果から,fMRIには多目的セマンティック・キューが豊富に含まれていることが証明された。
論文 参考訳(メタデータ) (2025-07-03T04:46:48Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Semantic Brain Decoding: from fMRI to conceptually similar image
reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。
我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。
視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文 参考訳(メタデータ) (2022-12-13T16:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。