論文の概要: Hi-DREAM: Brain Inspired Hierarchical Diffusion for fMRI Reconstruction via ROI Encoder and visuAl Mapping
- arxiv url: http://arxiv.org/abs/2511.11437v1
- Date: Fri, 14 Nov 2025 16:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.708743
- Title: Hi-DREAM: Brain Inspired Hierarchical Diffusion for fMRI Reconstruction via ROI Encoder and visuAl Mapping
- Title(参考訳): Hi-DREAM: ROIエンコーダとvisuAlマッピングを用いたfMRI再構成のための脳誘発階層的拡散
- Authors: Guowei Zhang, Yun Zhao, Moein Khajehnejad, Adeel Razi, Levin Kuhlmann,
- Abstract要約: Hi-DREAMは、皮質組織を明確にする条件拡散フレームワークである。
軽量で深度にマッチしたControlNetは、デノイング中にスケール固有のヒントを注入する。
実験により、Hi-DREAMは高レベルのセマンティックメトリクスで最先端のパフォーマンスを得ることができた。
- 参考スコア(独自算出の注目度): 5.019958634393433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mapping human brain activity to natural images offers a new window into vision and cognition, yet current diffusion-based decoders face a core difficulty: most condition directly on fMRI features without analyzing how visual information is organized across the cortex. This overlooks the brain's hierarchical processing and blurs the roles of early, middle, and late visual areas. We propose Hi-DREAM, a brain-inspired conditional diffusion framework that makes the cortical organization explicit. A region-of-interest (ROI) adapter groups fMRI into early/mid/late streams and converts them into a multi-scale cortical pyramid aligned with the U-Net depth (shallow scales preserve layout and edges; deeper scales emphasize objects and semantics). A lightweight, depth-matched ControlNet injects these scale-specific hints during denoising. The result is an efficient and interpretable decoder in which each signal plays a brain-like role, allowing the model not only to reconstruct images but also to illuminate functional contributions of different visual areas. Experiments on the Natural Scenes Dataset (NSD) show that Hi-DREAM attains state-of-the-art performance on high-level semantic metrics while maintaining competitive low-level fidelity. These findings suggest that structuring conditioning by cortical hierarchy is a powerful alternative to purely data-driven embeddings and provides a useful lens for studying the visual cortex.
- Abstract(参考訳): 人間の脳活動を自然な画像にマッピングすることは、視覚と認知に新しい窓を提供するが、現在の拡散に基づくデコーダは、中核的な困難に直面している。
これは脳の階層的な処理を見落とし、初期、中、後期視覚領域の役割を曖昧にする。
我々は,脳にインスパイアされた条件拡散フレームワークであるHi-DREAMを提案する。
region-of-interest (ROI)アダプタはfMRIをアーリー/ミッド/レイトストリームにグループ化し、それらをU-Netの深さに合わせたマルチスケールの皮質ピラミッドに変換する(浅いスケールはレイアウトとエッジを保存し、より深いスケールはオブジェクトとセマンティクスを強調する)。
軽量で深度にマッチしたControlNetは、デノイング中にこれらのスケール固有のヒントを注入する。
その結果、各信号が脳のような役割を果たす効率よく解釈可能なデコーダとなり、画像の再構成だけでなく、異なる視覚領域の機能的コントリビューションを照らすことができる。
NSD(Natural Scenes Dataset)の実験によると、Hi-DREAMは競争力のある低レベルの忠実さを維持しながら、高レベルのセマンティックメトリクス上で最先端のパフォーマンスを実現する。
これらの結果から、皮質階層による構造化条件付けは、純粋にデータ駆動型埋め込みの強力な代替であり、視覚野の研究に有用なレンズであることが示唆された。
関連論文リスト
- Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI [39.952672554797125]
我々は、fMRI信号が、視覚ベースの空間や共同テキスト画像空間よりも、言語モデルのテキスト空間によく似ていることを示す。
視覚刺激再構成のためのメディア間表現として,fMRI sIgnals を構造化テキスト空間に投影するモデル PRISM を提案する。
論文 参考訳(メタデータ) (2025-10-17T20:18:06Z) - Deep Neural Encoder-Decoder Model to Relate fMRI Brain Activity with Naturalistic Stimuli [2.7149743794003913]
そこで本研究では,脳活動のエンコードとデコードを行う,エンド・ツー・エンドのディープ・ニューラル・エンコーダ・デコーダモデルを提案する。
我々はアーキテクチャに時間的畳み込み層を導入し、自然界の刺激とfMRIの時間分解能ギャップを効果的に埋めることを可能にする。
論文 参考訳(メタデータ) (2025-07-16T08:08:48Z) - Perception Activator: An intuitive and portable framework for brain cognitive exploration [19.851643249367108]
干渉条件としてfMRI表現を用いる実験フレームワークを開発した。
オブジェクト検出とインスタンス分割タスクにおける下流性能と中間的特徴の変化をfMRI情報の有無で比較した。
以上の結果から,fMRIには多目的セマンティック・キューが豊富に含まれていることが証明された。
論文 参考訳(メタデータ) (2025-07-03T04:46:48Z) - Sparse Autoencoders Bridge The Deep Learning Model and The Brain [18.058358411706052]
SAE-BrainMapは、ディープラーニングの視覚モデル表現とボクセルレベルのfMRI応答を一致させる新しいフレームワークである。
ViT-B/16$_CLIP$は、初期層で高レベルなセマンティック情報を生成するために低レベルな情報を利用する傾向がある。
我々の結果は、ディープニューラルネットワークと人間の視覚野の間に直接、下流でタスクのない橋を架け、モデル解釈可能性に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-10T06:35:14Z) - Top-Down Guidance for Learning Object-Centric Representations [30.06924788022504]
Top-Down Guided Network (TDGNet)は、オブジェクト中心の表現を改善するためのトップダウンパスである。
TDGNetは、様々な複雑さを持つ複数のデータセットにおいて、現在のオブジェクト中心モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。