論文の概要: Coarse-to-fine Hierarchical Architecture with Sequential Mamba for Brain Reconstruction
- arxiv url: http://arxiv.org/abs/2606.04772v1
- Date: Wed, 03 Jun 2026 11:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.723197
- Title: Coarse-to-fine Hierarchical Architecture with Sequential Mamba for Brain Reconstruction
- Title(参考訳): 脳再建のためのシークエンシャルマンバを用いた粗大な階層構造
- Authors: Hoang-Son Vo, Van-Hung Bui, Minh-Huy Mai-Duc, Tien-Dung Mai, Soo-Hyung Kim,
- Abstract要約: 画像-fMRI符号化のための新しい階層型2段階フレームワークであるCHASMBrainを提案する。
我々のアーキテクチャは、グローバルなセマンティックトークンと局所的な空間パッチを明確に分離し処理するために、デュアルストリームのMamba設計を活用している。
提案手法はPearsonの0.429とMSE0.261の相関を達成し,評価基準線を上回る結果を得た。
- 参考スコア(独自算出の注目度): 5.732406989501624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the relationship between deep visual representations and the human visual system is a fundamental challenge in computational neuroscience. While modern vision models achieve strong performance in image recognition, their correspondence with the hierarchical organization of the human visual cortex remains an open question. In this study, we propose CHASMBrain, a novel hierarchical two-stage framework for image-to-fMRI encoding. Our architecture leverages a dual-stream Mamba design to explicitly separate and process global semantic tokens and local spatial patches, motivated by the functional organization of the visual cortex. A coarse-to-fine strategy is employed: Stage 1 predicts denoised ROI-level activations, while Stage 2 refines these coarse responses into full voxel-level predictions using a Mamba-VAE. Experiments on the Natural Scenes Dataset (NSD) demonstrate that our method achieves a Pearson correlation of 0.429 and an MSE of 0.261, outperforming all evaluated baselines including ridge regression and DINOv2 linear probes. Beyond predictive performance, causal branch-ablation experiments reveal an asymmetric specialization: the patch stream is specifically locked to early visual cortex (retinotopic regions), while the CLS stream contributes broader semantic context to higher-order areas -- a correspondence that holds causally, not merely correlationally. Cross-subject transfer experiments further show that the learned backbone generalizes across individuals with minimal per-subject adaptation, suggesting the model captures a shared, subject-agnostic visual representation.
- Abstract(参考訳): 深部視覚表現と人間の視覚システムとの関係を理解することは、計算神経科学の基本的な課題である。
現代の視覚モデルは画像認識において強い性能を発揮するが、人間の視覚野の階層構造との対応性は未解決のままである。
本研究では,画像-fMRI符号化のための新しい階層型2段階フレームワークであるCHASMBrainを提案する。
我々のアーキテクチャは、視覚野の機能的構造に動機づけられたグローバルセマンティックトークンと局所空間パッチを明確に分離し、処理するために、デュアルストリームのマンバ設計を活用している。
第1段階はROIレベル活性化を予測し、第2段階はmamba-VAEを使用してこれらの粗い応答を完全なボクセルレベル予測に洗練する。
In the Natural Scenes Dataset (NSD) 実験により,本手法はピアソン相関の0.429とMSEの0.261を達成し,リッジ回帰やDINOv2線形プローブを含む全ての評価ベースラインを上回った。
パッチストリームは、初期視覚野(網膜皮質領域)に特異的にロックされているのに対して、CRSストリームは、より高次の領域(単に相関関係ではなく因果的に保持される対応)に広範な意味的コンテキストを寄与している。
クロスオブジェクト転送実験は、学習されたバックボーンが最小限のオブジェクトごとの適応で個人全体に一般化することを示し、モデルが共有された主題に依存しない視覚的表現を捉えることを示唆している。
関連論文リスト
- Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding [37.36610841961446]
クロスオブジェクト視覚デコーディングは、個人間での脳活動からの視覚体験を再構築することを目的としている。
既存の手法は、データ制限のある新しい被験者に適応する際に、しばしば劣化したパフォーマンスに悩まされる。
刺激レベルの整合性と主観レベルの整合性を実現するために設計された二重レベル整合性フレームワークであるDualaを提案する。
論文 参考訳(メタデータ) (2026-03-08T13:22:20Z) - Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Optimized two-stage AI-based Neural Decoding for Enhanced Visual Stimulus Reconstruction from fMRI Data [2.0851013563386247]
本研究は、fMRI遅延空間表現を改善するための非線形ディープネットワークを提案し、次元性も同様に最適化する。
Natural Scenesデータセットの実験により、提案されたアーキテクチャは、最先端のモデルに関して、再構成された画像の構造的類似性を約2%改善した。
LDMのノイズ感度解析により,第1ステージの役割は,高い構造的類似性を有する刺激を予測するのに基本的であることが示された。
論文 参考訳(メタデータ) (2024-12-17T16:42:55Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Layerwise complexity-matched learning yields an improved model of cortical area V2 [12.861402235256207]
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドを訓練した。
我々は,連続する層に独立して機能する自己指導型トレーニング手法を開発した。
本モデルは, 霊長類領域V2における選択性特性と神経活動に適合していることが示唆された。
論文 参考訳(メタデータ) (2023-12-18T18:37:02Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Top-down inference in an early visual cortex inspired hierarchical
Variational Autoencoder [0.0]
我々は変分オートエンコーダの進歩を利用して、自然画像に基づいて訓練された疎い符号化階層型VAEを用いて、初期視覚野を調査する。
一次および二次視覚皮質に見られるものと類似した表現は、軽度の誘導バイアスの下で自然に現れる。
生成モデルを用いた2つの計算のシグネチャに対して,ニューロサイエンスに着想を得た認識モデルの選択が重要であることを示す。
論文 参考訳(メタデータ) (2022-06-01T12:21:58Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。