論文の概要: Learning Brain Representation with Hierarchical Visual Embeddings
- arxiv url: http://arxiv.org/abs/2602.07495v1
- Date: Sat, 07 Feb 2026 11:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.652159
- Title: Learning Brain Representation with Hierarchical Visual Embeddings
- Title(参考訳): 階層型視覚埋め込みによる脳表現の学習
- Authors: Jiawen Zheng, Haonan Jia, Ming Li, Yuhui Zheng, Yufeng Zeng, Yang Gao, Chen Liang,
- Abstract要約: 本稿では,事前学習した視覚エンコーダの帰納的バイアスを利用した脳画像アライメント戦略を提案し,階層的,マルチスケールな視覚表現を捉える。
本手法は,検索精度と再現精度のバランスが良好である。
- 参考スコア(独自算出の注目度): 30.701493890961284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding visual representations from brain signals has attracted significant attention in both neuroscience and artificial intelligence. However, the degree to which brain signals truly encode visual information remains unclear. Current visual decoding approaches explore various brain-image alignment strategies, yet most emphasize high-level semantic features while neglecting pixel-level details, thereby limiting our understanding of the human visual system. In this paper, we propose a brain-image alignment strategy that leverages multiple pre-trained visual encoders with distinct inductive biases to capture hierarchical and multi-scale visual representations, while employing a contrastive learning objective to achieve effective alignment between brain signals and visual embeddings. Furthermore, we introduce a Fusion Prior, which learns a stable mapping on large-scale visual data and subsequently matches brain features to this pre-trained prior, thereby enhancing distributional consistency across modalities. Extensive quantitative and qualitative experiments demonstrate that our method achieves a favorable balance between retrieval accuracy and reconstruction fidelity.
- Abstract(参考訳): 脳信号からの視覚的表現の復号は、神経科学と人工知能の両方において大きな注目を集めている。
しかし、脳信号が真に視覚情報をエンコードする程度は不明である。
現在の視覚デコードアプローチでは、様々な脳画像アライメント戦略が検討されているが、最も強調されているのは、ピクセルレベルの詳細を無視しながら、高レベルのセマンティックな特徴であり、それによって人間の視覚システムに対する理解が制限されることである。
本稿では,脳信号と視覚埋め込みの効果的なアライメントを実現するために,脳画像のアライメント戦略を提案する。
さらに,大規模な視覚データの安定なマッピングを学習し,脳の特徴と事前学習した前者の脳機能とを一致させることにより,モダリティ間の分布の整合性を向上するFusion Priorを導入する。
定量的,定性的な実験により,検索精度と再現精度のバランスが良好であることを実証した。
関連論文リスト
- Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - MindAligner: Explicit Brain Functional Alignment for Cross-Subject Visual Decoding from Limited fMRI Data [64.92867794764247]
MindAlignerは、限られたfMRIデータからのクロスオブジェクト脳デコーディングのためのフレームワークである。
脳伝達マトリックス(BTM)は、任意の新しい被験者の脳信号を既知の被験者の1人に投射する。
脳機能アライメントモジュールは、異なる視覚刺激下で軟質なクロスオブジェクト脳アライメントを実行するために提案されている。
論文 参考訳(メタデータ) (2025-02-07T16:01:59Z) - Human-Aligned Image Models Improve Visual Decoding from the Brain [16.184884942703466]
我々は,脳の信号を画像にマッピングするために,人間のアライン画像エンコーダを導入する。
我々の経験的結果は、この単純な修正によって画像検索精度が最大21%向上することを示すこの仮説を支持している。
論文 参考訳(メタデータ) (2025-02-05T11:14:51Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。