論文の概要: Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction
- arxiv url: http://arxiv.org/abs/2510.22335v1
- Date: Sat, 25 Oct 2025 15:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.952247
- Title: Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction
- Title(参考訳): 拡散を超えて動く:fMRIから画像への再構成のための階層から階層への自己回帰
- Authors: Xu Zhang, Ruijie Quan, Wenguan Wang, Yi Yang,
- Abstract要約: 我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
- 参考スコア(独自算出の注目度): 65.67001243986981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing visual stimuli from fMRI signals is a central challenge bridging machine learning and neuroscience. Recent diffusion-based methods typically map fMRI activity to a single high-level embedding, using it as fixed guidance throughout the entire generation process. However, this fixed guidance collapses hierarchical neural information and is misaligned with the stage-dependent demands of image reconstruction. In response, we propose MindHier, a coarse-to-fine fMRI-to-image reconstruction framework built on scale-wise autoregressive modeling. MindHier introduces three components: a Hierarchical fMRI Encoder to extract multi-level neural embeddings, a Hierarchy-to-Hierarchy Alignment scheme to enforce layer-wise correspondence with CLIP features, and a Scale-Aware Coarse-to-Fine Neural Guidance strategy to inject these embeddings into autoregression at matching scales. These designs make MindHier an efficient and cognitively-aligned alternative to diffusion-based methods by enabling a hierarchical reconstruction process that synthesizes global semantics before refining local details, akin to human visual perception. Extensive experiments on the NSD dataset show that MindHier achieves superior semantic fidelity, 4.67x faster inference, and more deterministic results than the diffusion-based baselines.
- Abstract(参考訳): fMRI信号から視覚刺激を再構築することは、機械学習と神経科学の中心的な課題である。
最近の拡散法では、fMRIのアクティビティを単一のハイレベルな埋め込みにマッピングし、生成プロセス全体を通して固定的なガイダンスとして利用している。
しかし、この固定ガイダンスは階層的な神経情報を崩壊させ、画像再構成の段階依存的な要求と一致しない。
そこで我々は,スケールワイド自己回帰モデルに基づく粗いfMRI画像再構成フレームワークであるMindHierを提案する。
MindHier氏は、マルチレベルのニューラルネットワークを抽出する階層的fMRIエンコーダ、CLIP機能との階層的対応を強制する階層的-階層的アライメントスキーム、これらの埋め込みをマッチングスケールで自己回帰に注入するスケール・アウェア・粗-フィンニューラルガイダンス戦略の3つのコンポーネントを紹介した。
これらのデザインにより、MindHierは、人間の視覚的知覚に似た局所的な詳細を精製する前に、グローバルな意味論を合成する階層的再構築プロセスを可能にすることで、拡散ベースの方法に代わる効率的で認知的に整合する。
NSDデータセットの大規模な実験により、MindHierは拡散ベースベースラインよりも優れたセマンティック忠実度、4.67倍高速な推論、より決定論的結果が得られることが示された。
関連論文リスト
- Perception Activator: An intuitive and portable framework for brain cognitive exploration [19.851643249367108]
干渉条件としてfMRI表現を用いる実験フレームワークを開発した。
オブジェクト検出とインスタンス分割タスクにおける下流性能と中間的特徴の変化をfMRI情報の有無で比較した。
以上の結果から,fMRIには多目的セマンティック・キューが豊富に含まれていることが証明された。
論文 参考訳(メタデータ) (2025-07-03T04:46:48Z) - Optimized two-stage AI-based Neural Decoding for Enhanced Visual Stimulus Reconstruction from fMRI Data [2.0851013563386247]
本研究は、fMRI遅延空間表現を改善するための非線形ディープネットワークを提案し、次元性も同様に最適化する。
Natural Scenesデータセットの実験により、提案されたアーキテクチャは、最先端のモデルに関して、再構成された画像の構造的類似性を約2%改善した。
LDMのノイズ感度解析により,第1ステージの役割は,高い構造的類似性を有する刺激を予測するのに基本的であることが示された。
論文 参考訳(メタデータ) (2024-12-17T16:42:55Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Natural scene reconstruction from fMRI signals using generative latent
diffusion [1.90365714903665]
我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。
第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
論文 参考訳(メタデータ) (2023-03-09T15:24:26Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。