論文の概要: Achieving Fine-grained Cross-modal Understanding through Brain-inspired Hierarchical Representation Learning
- arxiv url: http://arxiv.org/abs/2601.01339v1
- Date: Sun, 04 Jan 2026 02:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.234931
- Title: Achieving Fine-grained Cross-modal Understanding through Brain-inspired Hierarchical Representation Learning
- Title(参考訳): 脳に触発された階層的表現学習による細粒度クロスモーダル理解の実現
- Authors: Weihang You, Hanqi Jiang, Yi Pan, Junhao Chen, Tianming Liu, Fei Dou,
- Abstract要約: 本稿では,人間の視覚系の階層構造にインスパイアされた,微細なfMRI映像アライメントのための新しいフレームワークであるNeuroAlignを紹介する。
我々のフレームワークは,生物の視覚経路を反映する2段階のメカニズムを実装している。
実験により、NeuroAlignはクロスモーダル検索タスクにおいて既存の手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 20.602643947067406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding neural responses to visual stimuli remains challenging due to the inherent complexity of brain representations and the modality gap between neural data and visual inputs. Existing methods, mainly based on reducing neural decoding to generation tasks or simple correlations, fail to reflect the hierarchical and temporal processes of visual processing in the brain. To address these limitations, we present NeuroAlign, a novel framework for fine-grained fMRI-video alignment inspired by the hierarchical organization of the human visual system. Our framework implements a two-stage mechanism that mirrors biological visual pathways: global semantic understanding through Neural-Temporal Contrastive Learning (NTCL) and fine-grained pattern matching through enhanced vector quantization. NTCL explicitly models temporal dynamics through bidirectional prediction between modalities, while our DynaSyncMM-EMA approach enables dynamic multi-modal fusion with adaptive weighting. Experiments demonstrate that NeuroAlign significantly outperforms existing methods in cross-modal retrieval tasks, establishing a new paradigm for understanding visual cognitive mechanisms.
- Abstract(参考訳): 視覚刺激に対する神経反応を理解することは、脳表現の本質的な複雑さと、ニューラルデータと視覚入力の間のモダリティギャップのために依然として困難である。
既存の方法は、主にニューラルデコーディングを生成タスクや単純な相関に還元することに基づいており、脳内の視覚処理の階層的・時間的過程を反映しない。
これらの制約に対処するため,人間の視覚系の階層構造に触発された微細なfMRI映像アライメントのための新しいフレームワークであるNeuroAlignを提案する。
我々のフレームワークは,生物学的視覚経路を反映する2段階のメカニズムを実装している。このメカニズムは,NTCL(Neural-Temporal Contrastive Learning)による大域的意味理解と,ベクトル量子化の強化によるきめ細かなパターンマッチングである。
NTCLはモーダリティ間の双方向予測を通じて時間的ダイナミクスを明示的にモデル化し,我々のDynaSyncMM-EMAアプローチは適応重み付けによる動的マルチモーダル融合を実現する。
実験により、NeuroAlignは、クロスモーダル検索タスクにおいて既存の手法よりも大幅に優れており、視覚認知メカニズムを理解するための新しいパラダイムが確立されている。
関連論文リスト
- SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - BrainFLORA: Uncovering Brain Concept Representation via Multimodal Neural Embeddings [19.761793010311614]
我々は、相互モーダルなニューロイメージングデータを統合する統合フレームワークBrainFLORAを導入し、共有されたニューラル表現を構築する。
提案手法では,マルチモーダル大規模言語モデル (MLLM) に適応型アダプタとタスクデコーダを付加し,共同オブジェクト視覚検索における最先端性能を実現する。
BrainFLORAは認知神経科学と脳-コンピュータインターフェース(BCI)に新しい意味を与える
論文 参考訳(メタデータ) (2025-07-13T18:56:17Z) - Brain2Text Decoding Model Reveals the Neural Mechanisms of Visual Semantic Processing [0.17188280334580194]
本稿では,fMRI信号を直接自然な画像のテキスト記述にデコードする新しいフレームワークを提案する。
視覚情報なしで訓練された新しいディープラーニングモデルは、最先端のセマンティックデコーディング性能を実現する。
論文 参考訳(メタデータ) (2025-03-15T07:28:02Z) - Neural-MCRL: Neural Multimodal Contrastive Representation Learning for EEG-based Visual Decoding [2.587640069216139]
脳波(EEG)を用いた脳活動からの神経視覚表現のデコードは、脳-機械界面(BMI)の進行に不可欠である
既存の手法は、しばしばモダリティ内の意味的一貫性と完全性を見落とし、モダリティ間の効果的なセマンティックアライメントを欠いている。
本稿では,セマンティックブリッジとクロスアテンション機構によるマルチモーダルアライメントを実現する新しいフレームワークであるNeural-MCRLを提案する。
論文 参考訳(メタデータ) (2024-12-23T07:02:44Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。